論文の概要: An Impartial Transformer for Story Visualization
- arxiv url: http://arxiv.org/abs/2301.03563v1
- Date: Mon, 9 Jan 2023 18:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:16:16.087369
- Title: An Impartial Transformer for Story Visualization
- Title(参考訳): ストーリービジュアライゼーションのためのImpartial Transformer
- Authors: Nikolaos Tsakas, Maria Lymperaiou, Giorgos Filandrianos, Giorgos
Stamou
- Abstract要約: Impartial Transformerはテキストに関連のある可視的なシーンとシーケンシャルな一貫性の両方を達成する。
この強化は、閉ざされたオブジェクトによる「硬い」サンプルの合成を扱うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Story Visualization is an advanced task of computed vision that targets
sequential image synthesis, where the generated samples need to be realistic,
faithful to their conditioning and sequentially consistent. Our work proposes a
novel architectural and training approach: the Impartial Transformer achieves
both text-relevant plausible scenes and sequential consistency utilizing as few
trainable parameters as possible. This enhancement is even able to handle
synthesis of 'hard' samples with occluded objects, achieving improved
evaluation metrics comparing to past approaches.
- Abstract(参考訳): ストーリービジュアライゼーション(ストーリービジュアライゼーション)は、シーケンシャルな画像合成をターゲットとする、コンピュータビジョンの高度なタスクであり、生成されたサンプルは現実的で、条件に忠実で、シーケンシャルに一貫性を持つ必要がある。
Inpartial Transformerはテキストに関連のある可視的なシーンと、トレーニング可能なパラメータを可能な限り少なく活用したシーケンシャルな一貫性を実現する。
この強化は、オブジェクトを隠蔽した'硬い'サンプルの合成を処理でき、過去のアプローチと比較した評価基準の改善も達成できる。
関連論文リスト
- Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - ProbNVS: Fast Novel View Synthesis with Learned Probability-Guided
Sampling [42.37704606186928]
本稿では,MVSの事前学習に基づいて,新しいビュー合成フレームワークを構築することを提案する。
本手法は,最先端のベースラインに比べて15~40倍高速なレンダリングを実現する。
論文 参考訳(メタデータ) (2022-04-07T14:45:42Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。