論文の概要: MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration
- arxiv url: http://arxiv.org/abs/2602.03028v1
- Date: Tue, 03 Feb 2026 02:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.205656
- Title: MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration
- Title(参考訳): MUSE: 閉ループ認知オーケストレーションによる制約のないストーリーを想定するマルチエージェントフレームワーク
- Authors: Wenzhang Sun, Zhenyu Wang, Zhangchi Hu, Chunfeng Wang, Hao Li, Wei Chen,
- Abstract要約: 我々は,短いユーザプロンプトから長文音声視覚ストーリーを生成するフレームワークを開発した。
MUSEは物語の意図を、個人性、空間構成、時間的連続性に関する明示的で機械実行可能な制御に翻訳する。
MUSEは、ロングホライズンな物語のコヒーレンス、クロスモーダルなアイデンティティの整合性、および映画的品質を代表的ベースラインに比べて大幅に改善する。
- 参考スコア(独自算出の注目度): 16.61208703961799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating long-form audio-visual stories from a short user prompt remains challenging due to an intent-execution gap, where high-level narrative intent must be preserved across coherent, shot-level multimodal generation over long horizons. Existing approaches typically rely on feed-forward pipelines or prompt-only refinement, which often leads to semantic drift and identity inconsistency as sequences grow longer. We address this challenge by formulating storytelling as a closed-loop constraint enforcement problem and propose MUSE, a multi-agent framework that coordinates generation through an iterative plan-execute-verify-revise loop. MUSE translates narrative intent into explicit, machine-executable controls over identity, spatial composition, and temporal continuity, and applies targeted multimodal feedback to correct violations during generation. To evaluate open-ended storytelling without ground-truth references, we introduce MUSEBench, a reference-free evaluation protocol validated by human judgments. Experiments demonstrate that MUSE substantially improves long-horizon narrative coherence, cross-modal identity consistency, and cinematic quality compared with representative baselines.
- Abstract(参考訳): 短いユーザプロンプトから長文の音声-視覚的ストーリーを生成することは、長い地平線上での一貫性のあるショットレベルのマルチモーダル世代間で高いレベルの物語意図を保たなければならないという意図-実行のギャップのため、依然として困難である。
既存のアプローチは一般的にフィードフォワードパイプラインやプロンプトのみの洗練に依存しており、シーケンスが長くなるにつれて意味的なドリフトやアイデンティティの不整合につながることが多い。
本稿では、ストーリーテリングをクローズドループ制約執行問題として定式化することでこの問題に対処し、反復的な計画-実行-検証-修正ループを通して生成を協調するマルチエージェントフレームワークであるMUSEを提案する。
MUSEは、物語の意図を、個人性、空間構成、時間的連続性に対する明示的でマシン実行可能なコントロールに変換し、生成中の違反を正すためにターゲットのマルチモーダルフィードバックを適用する。
提案するMUSEBenchは,人間の判断によって検証された参照不要な評価プロトコルである。
実験により、MUSEは、代表ベースラインと比較して、長期の物語コヒーレンス、クロスモーダルなアイデンティティ整合性、撮影品質を大幅に改善することが示された。
関連論文リスト
- Codified Foreshadowing-Payoff Text Generation [67.01182739162142]
前処理と支払いは、著者が物語の初期にコミットメントを導入し、具体的で観察可能な結果を通じてそれらを解決するユビキタスな物語装置である。
既存の評価は、物語のセットアップの論理的充足よりも表面レベルのコヒーレンスに焦点をあてて、この構造的失敗を概ね見落としている。
我々は,報奨実現のレンズを通して物語の質を再構築する新しいフレームワークであるCodified Foreshadowing-Payoff Generationを紹介した。
論文 参考訳(メタデータ) (2026-01-11T19:05:37Z) - CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation [9.91271343855315]
CoAgentは、コヒーレントなビデオ生成のためのフレームワークで、プラン合成の検証パイプラインとしてプロセスを定式化している。
Storyboard Plannerは、入力を明示的な実体、空間的関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
ペーシング対応エディタは、所望の物語の流れに合わせて時間リズムと遷移を洗練する。
論文 参考訳(メタデータ) (2025-12-27T09:38:34Z) - Living the Novel: A System for Generating Self-Training Timeline-Aware Conversational Agents from Novels [50.43968216132018]
文芸作品が没入的で多文字の会話体験に変換されるエンド・ツー・エンドシステムを提案する。
このシステムはLLM駆動文字の2つの基本的な課題を解決するために設計されている。
論文 参考訳(メタデータ) (2025-12-08T11:57:46Z) - Chronological Passage Assembling in RAG framework for Temporal Question Answering [12.583700669377803]
物語テキストに特化した新しいRAGフレームワークであるChronoRAGを提案する。
このアプローチは、分散文書情報をコヒーレントかつ構造化されたパスに精製する、2つの重要な側面に焦点を当てる。
我々はNarrativeQAとGutenQAdatasetの実験を通してChronoRAGの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-08-26T07:23:23Z) - Re:Verse -- Can Your VLM Read a Manga? [14.057881684215047]
現在の視覚言語モデル(VLM)は、表面レベルの認識と深い物語的推論の間に重要なギャップを示す。
本稿では,細粒度マルチモーダルアノテーション,クロスモーダル埋め込み解析,検索強化評価を組み合わせた新しい評価フレームワークを提案する。
本稿では,VLMにおける長期的物語理解に関する最初の体系的研究を,生成的ストーリーテリング,文脈的対話グラウンドニング,時間的推論という3つのコア評価軸を通じて行った。
論文 参考訳(メタデータ) (2025-08-11T22:40:05Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Generating Long-form Story Using Dynamic Hierarchical Outlining with Memory-Enhancement [29.435378306293583]
本稿では,DOMEと命名されたメモリ・エンハンスメントを用いた動的階層的アウトラインニングを提案し,一貫性のある内容とプロットを持つ長大なストーリーを生成する。
時間的知識グラフに基づくメモリ・エンハンスメント・モジュール(MEM)を導入し、生成されたコンテンツを保存・アクセスする。
実験により、DOMEは最先端の手法と比較して、生成した長いストーリーの流布、コヒーレンス、および全体的な品質を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-18T07:50:54Z) - Improving Pacing in Long-Form Story Planning [55.39443681232538]
ストーリーアウトラインを自動的に生成する際のペアリングを改善するためのConCrete Outline ConTrolシステムを提案する。
まず,2つの事象のどちらがより具体的であるかを判断するために,具体性評価器を訓練する。
本研究では,一様ペーシングを目的とした,あいまいな第1展開手順について検討する。
論文 参考訳(メタデータ) (2023-11-08T04:58:29Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。