論文の概要: Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis
- arxiv url: http://arxiv.org/abs/2309.09553v4
- Date: Wed, 6 Mar 2024 16:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:03:35.244354
- Title: Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis
- Title(参考訳): Causal-Story:パラメータ効率を考慮したビジュアルストーリー合成のための局所因果注意
- Authors: Tianyi Song, Jiuxin Cao, Kun Wang, Bo Liu, Xiaofeng Zhang
- Abstract要約: 本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
- 参考スコア(独自算出の注目度): 12.766712398098646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The excellent text-to-image synthesis capability of diffusion models has
driven progress in synthesizing coherent visual stories. The current
state-of-the-art method combines the features of historical captions,
historical frames, and the current captions as conditions for generating the
current frame. However, this method treats each historical frame and caption as
the same contribution. It connects them in order with equal weights, ignoring
that not all historical conditions are associated with the generation of the
current frame. To address this issue, we propose Causal-Story. This model
incorporates a local causal attention mechanism that considers the causal
relationship between previous captions, frames, and current captions. By
assigning weights based on this relationship, Causal-Story generates the
current frame, thereby improving the global consistency of story generation. We
evaluated our model on the PororoSV and FlintstonesSV datasets and obtained
state-of-the-art FID scores, and the generated frames also demonstrate better
storytelling in visuals.
- Abstract(参考訳): 拡散モデルの優れたテキストと画像の合成能力は、コヒーレントなビジュアルストーリーの合成の進歩を促した。
現在の最先端の手法は、現在のフレームを生成する条件として、歴史的なキャプション、歴史的なフレーム、そして現在のキャプションの特徴を組み合わせる。
しかし、この方法はそれぞれの歴史的枠とキャプションを同じ貢献として扱う。
すべての歴史的条件が現在のフレームの生成と関連しているわけではないことを無視して、同じ重みでそれらを順番に結びつける。
この問題に対処するため、我々はCausal-Storyを提案する。
このモデルは、以前のキャプション、フレーム、現在のキャプション間の因果関係を考慮した、局所的な因果的注意機構を取り入れている。
この関係に基づいて重みを割り当てることで、因果関係は現在のフレームを生成し、ストーリー生成のグローバル一貫性を向上させる。
本研究では,pororosvとflintstonessvデータセットのモデルを評価し,得られた最新fidスコアを評価した。
関連論文リスト
- TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention [50.572907418430155]
本稿では,画像の依存関係に対する空間的注意に基づくテキスト・画像生成ツールであるTemporalStoryを紹介する。
また、他の文からの情報を現在の文の埋め込みに組み込むことのできるテキストアダプタも導入する。
私たちのTemporalStoryは、ストーリービジュアライゼーションとストーリー継続タスクの両方において、これまでの最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Improved Visual Story Generation with Adaptive Context Modeling [39.04249009170821]
本稿では,適応型コンテキストモデリングによる先行システムを改善するための簡易な手法を提案する。
我々は, PororoSV と FlintstonesSV のデータセットを用いたモデルの評価を行い,本手法が物語の可視化と継続シナリオの両面において最先端の FID スコアを達成することを示す。
論文 参考訳(メタデータ) (2023-05-26T10:43:42Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。