論文の概要: ViSTA: Visual Storytelling using Multi-modal Adapters for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.12198v1
- Date: Fri, 13 Jun 2025 19:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.396877
- Title: ViSTA: Visual Storytelling using Multi-modal Adapters for Text-to-Image Diffusion Models
- Title(参考訳): ViSTA:テキスト・画像拡散モデルのためのマルチモーダル・アダプタを用いたビジュアルストーリーテリング
- Authors: Sibo Dong, Ismail Shaheen, Maggie Shen, Rupayan Mallick, Sarah Adel Bargal,
- Abstract要約: テキストから画像への拡散モデルである textbfViSTA に対するマルチモーダルヒストリーアダプタを提案する。
1) 関連する履歴特徴を抽出するマルチモーダル履歴融合モジュールと,(2) 抽出した関連する特徴について生成を条件付けるヒストリアダプタとから構成される。
提案するViSTAモデルは,異なるフレーム間での整合性だけでなく,物語のテキスト記述と整合性も備えている。
- 参考スコア(独自算出の注目度): 5.753009405589415
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image diffusion models have achieved remarkable success, yet generating coherent image sequences for visual storytelling remains challenging. A key challenge is effectively leveraging all previous text-image pairs, referred to as history text-image pairs, which provide contextual information for maintaining consistency across frames. Existing auto-regressive methods condition on all past image-text pairs but require extensive training, while training-free subject-specific approaches ensure consistency but lack adaptability to narrative prompts. To address these limitations, we propose a multi-modal history adapter for text-to-image diffusion models, \textbf{ViSTA}. It consists of (1) a multi-modal history fusion module to extract relevant history features and (2) a history adapter to condition the generation on the extracted relevant features. We also introduce a salient history selection strategy during inference, where the most salient history text-image pair is selected, improving the quality of the conditioning. Furthermore, we propose to employ a Visual Question Answering-based metric TIFA to assess text-image alignment in visual storytelling, providing a more targeted and interpretable assessment of generated images. Evaluated on the StorySalon and FlintStonesSV dataset, our proposed ViSTA model is not only consistent across different frames, but also well-aligned with the narrative text descriptions.
- Abstract(参考訳): テキストと画像の拡散モデルは非常に成功したが、ビジュアルなストーリーテリングのためのコヒーレントな画像列を生成することは依然として困難である。
重要な課題は、フレーム間の一貫性を維持するためのコンテキスト情報を提供する、履歴テキストイメージペアと呼ばれる、過去のテキストイメージペアを効果的に活用することである。
既存の自己回帰的手法は、過去のすべての画像テキストペアで条件付きだが、広範囲な訓練を必要とする。
これらの制約に対処するため,テキストから画像への拡散モデルである \textbf{ViSTA} に対するマルチモーダルヒストリーアダプタを提案する。
1) 関連する履歴特徴を抽出するマルチモーダル履歴融合モジュールと,(2) 抽出した関連する特徴について生成を条件付けるヒストリアダプタとから構成される。
また、推論中の有能な歴史選択戦略を導入し、最も有能な歴史テキストイメージペアが選択され、条件付けの品質が向上する。
さらに,視覚的ストーリーテリングにおけるテキスト画像のアライメントを評価するために,視覚的質問応答に基づく TIFA を用いて,生成した画像のよりターゲット的で解釈可能な評価を行う。
StorySalonとFlintStonesSVデータセットに基づいて評価し、提案したViSTAモデルは、異なるフレーム間での一貫性だけでなく、物語のテキスト記述との整合性も良好である。
関連論文リスト
- One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。