論文の概要: TaleDiffusion: Multi-Character Story Generation with Dialogue Rendering
- arxiv url: http://arxiv.org/abs/2509.04123v1
- Date: Thu, 04 Sep 2025 11:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.144316
- Title: TaleDiffusion: Multi-Character Story Generation with Dialogue Rendering
- Title(参考訳): TaleDiffusion:対話レンダリングによるマルチキャラクタストーリー生成
- Authors: Ayan Banerjee, Josep Lladós, Umapada Pal, Anjan Dutta,
- Abstract要約: TaleDiffusionは、反復的なプロセスで複数文字のストーリーを生成するための新しいフレームワークである。
ストーリーが与えられたら、プレトレーニングされたLLMを使用して、フレームごとの記述、文字の詳細、対話を生成します。
次に、フレーム間の文字の整合性を確保するためのアイデンティティ一貫性を持つ自己認識機構と、正確なオブジェクト配置のための領域認識相互アテンションを適用した。
- 参考スコア(独自算出の注目度): 13.076013597876623
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-story visualization is challenging due to the need for consistent interaction among multiple characters across frames. Existing methods struggle with character consistency, leading to artifact generation and inaccurate dialogue rendering, which results in disjointed storytelling. In response, we introduce TaleDiffusion, a novel framework for generating multi-character stories with an iterative process, maintaining character consistency, and accurate dialogue assignment via postprocessing. Given a story, we use a pre-trained LLM to generate per-frame descriptions, character details, and dialogues via in-context learning, followed by a bounded attention-based per-box mask technique to control character interactions and minimize artifacts. We then apply an identity-consistent self-attention mechanism to ensure character consistency across frames and region-aware cross-attention for precise object placement. Dialogues are also rendered as bubbles and assigned to characters via CLIPSeg. Experimental results demonstrate that TaleDiffusion outperforms existing methods in consistency, noise reduction, and dialogue rendering.
- Abstract(参考訳): フレーム間の複数の文字間の一貫した相互作用が必要なため、テキスト・ツー・ストーリーの可視化は困難である。
既存の手法は文字の一貫性に苦しむため、アーティファクト生成や不正確な対話レンダリングにつながり、ストーリーテリングが途絶えることになる。
そこで本研究では,複数文字を反復的に生成し,文字の一貫性を保ち,後処理による正確な対話処理を行うための新しいフレームワークであるTraDiffusionを紹介した。
ストーリーが与えられたら、フレームごとの記述、文字の詳細、対話をコンテキスト内学習を通じて生成するために、事前訓練されたLLMを使用し、続いて、文字間の相互作用を制御し、アーティファクトを最小限に抑えるために、バウンドされたアテンションベースの1ボックスマスク技術を用いる。
次に、フレーム間の文字の整合性を確保するためのアイデンティティ一貫性を持つ自己認識機構と、正確なオブジェクト配置のための領域認識相互アテンションを適用した。
ダイアログはバブルとしてレンダリングされ、CLIPSegを介して文字に割り当てられる。
TaleDiffusionは、一貫性、ノイズ低減、対話レンダリングにおいて既存の手法よりも優れていることを示す実験結果を得た。
関連論文リスト
- Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的、文字条件付き音声として表現し、その結果、完全に音声化されたマルチモーダルなビデオ物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - VisAgent: Narrative-Preserving Story Visualization Framework [5.86192577938549]
VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
論文 参考訳(メタデータ) (2025-03-04T08:41:45Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。