論文の概要: Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs
- arxiv url: http://arxiv.org/abs/2507.21893v1
- Date: Tue, 29 Jul 2025 15:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.553369
- Title: Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs
- Title(参考訳): Aether Weaver: 動的シーングラフによるマルチモーダル・アフェクティブ・ナラティブ・コジェネレーション
- Authors: Saeed Ghorbani,
- Abstract要約: Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。
本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
- 参考スコア(独自算出の注目度): 0.8702432681310401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Aether Weaver, a novel, integrated framework for multimodal narrative co-generation that overcomes limitations of sequential text-to-visual pipelines. Our system concurrently synthesizes textual narratives, dynamic scene graph representations, visual scenes, and affective soundscapes, driven by a tightly integrated, co-generation mechanism. At its core, the Narrator, a large language model, generates narrative text and multimodal prompts, while the Director acts as a dynamic scene graph manager, and analyzes the text to build and maintain a structured representation of the story's world, ensuring spatio-temporal and relational consistency for visual rendering and subsequent narrative generation. Additionally, a Narrative Arc Controller guides the high-level story structure, influencing multimodal affective consistency, further complemented by an Affective Tone Mapper that ensures congruent emotional expression across all modalities. Through qualitative evaluations on a diverse set of narrative prompts encompassing various genres, we demonstrate that Aether Weaver significantly enhances narrative depth, visual fidelity, and emotional resonance compared to cascaded baseline approaches. This integrated framework provides a robust platform for rapid creative prototyping and immersive storytelling experiences.
- Abstract(参考訳): Aether Weaverは、連続したテキスト-視覚パイプラインの制限を克服するマルチモーダルな物語コジェネレーションのための、新しく統合されたフレームワークである。
本システムでは, テキスト・ナラティブ, 動的シーングラフ表現, 視覚的シーン, 感情的サウンドスケープを, 密に統合された協調生成機構によって同時に合成する。
大きな言語モデルであるナレーターは物語テキストとマルチモーダルプロンプトを生成し、ディレクターはダイナミックなシーングラフマネージャとして機能し、ストーリーの世界の構造化された表現を構築し維持するためにテキストを分析し、ビジュアルレンダリングとその後の物語生成のための時空間的および関係的な一貫性を確保する。
さらに、Narrative Arc Controllerは、高レベルなストーリー構造をガイドし、マルチモーダルな感情的一貫性に影響を与え、さらにすべてのモダリティをまたいだ同調的な感情表現を保証するAffective Tone Mapperによって補完される。
様々なジャンルを包含する多種多様な物語のプロンプトの質的評価を通じて,Aether Weaverは,包括的ベースラインアプローチと比較して,物語の深さ,視覚的忠実度,感情共鳴を著しく向上させることを示した。
この統合フレームワークは、迅速な創造的なプロトタイピングと没入的なストーリーテリング体験のための堅牢なプラットフォームを提供する。
関連論文リスト
- Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics [1.320904960556043]
本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
論文 参考訳(メタデータ) (2025-04-14T14:42:19Z) - VisAgent: Narrative-Preserving Story Visualization Framework [5.86192577938549]
VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
論文 参考訳(メタデータ) (2025-03-04T08:41:45Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - PlotMachines: Outline-Conditioned Generation with Dynamic Plot State
Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。
さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文 参考訳(メタデータ) (2020-04-30T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。