論文の概要: Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation
- arxiv url: http://arxiv.org/abs/2604.25318v1
- Date: Tue, 28 Apr 2026 07:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.758821
- Title: Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation
- Title(参考訳): Cutscene Agent: 自動3Dカットセン生成のためのLLMエージェントフレームワーク
- Authors: Lanshan He, Haozhou Pang, Qi Gan, Xin Shen, Ziwei Zhang, Yibo Liu, Gang Fang, Bo Liu, Kai Sheng, Shengfeng Zeng, Chaofan Li, Zhen Hui, Keer Zhou, Lan Zhou, Shujun Dai,
- Abstract要約: Cutscene Agentは、エンドツーエンドのCutscene自動生成のためのエージェントフレームワークである。
フレームワークには3つのコントリビューションがある。
モデルコンテキストプロトコル(MCP)上に構築されたCutscene Toolkit。
LLMエージェントとゲームエンジンの双方向統合。
監督エージェントは、アニメーション、撮影撮影、音響デザインのスペシャリストを編成し、視覚的推論フィードバックループによって、知覚駆動の洗練のために強化する。
- 参考スコア(独自算出の注目度): 13.671638376402377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cutscenes are carefully choreographed cinematic sequences embedded in video games and interactive media, serving as the primary vehicle for narrative delivery, character development, and emotional engagement. Producing cutscenes is inherently complex: it demands seamless coordination across screenwriting, cinematography, character animation, voice acting, and technical direction, often requiring days to weeks of collaborative effort from multidisciplinary teams to produce minutes of polished content. In this work, we present Cutscene Agent, an LLM agent framework for automated end-to-end cutscene generation. The framework makes three contributions: (1)~a Cutscene Toolkit built on the Model Context Protocol (MCP) that establishes \emph{bidirectional} integration between LLM agents and the game engine -- agents not only invoke engine operations but continuously observe real-time scene state, enabling closed-loop generation of editable engine-native cinematic assets; (2)~a multi-agent system where a director agent orchestrates specialist subagents for animation, cinematography, and sound design, augmented by a visual reasoning feedback loop for perception-driven refinement; and (3)~CutsceneBench, a hierarchical evaluation benchmark for cutscene generation. Unlike typical tool-use benchmarks that evaluate short, isolated function calls, cutscene generation requires long-horizon, multi-step orchestration of dozens of interdependent tool invocations with strict ordering constraints -- a capability dimension that existing benchmarks do not cover. We evaluate a range of LLMs on CutsceneBench and analyze their performance across this challenging task.
- Abstract(参考訳): カットシーンは、ビデオゲームやインタラクティブメディアに埋め込まれた、慎重に振付された映画シーケンスであり、物語の配信、キャラクター開発、感情的なエンゲージメントの主要な手段として機能する。
スクリーンライティング、シネマグラフィー、キャラクターアニメーション、声優、そして技術的な方向性をシームレスに調整する必要がある。
本研究では, エンド・ツー・エンドのカットシーン自動生成のためのLDMエージェントフレームワークであるCutscene Agentを提案する。
1 - A Cutscene Toolkit built on the Model Context Protocol (MCP) that establisheds \emph{bidirectional} integration with LLM agent and the game engine -- agent agent invoke engine operations but only continuous real-time scene state, allowing closed-loop generation of editingable engine-native cinematic assets; (2) - A multi-agent system which a director agent orchestrates specialist subagents for animation, cinematography, and sound design, augmented by a visual reasoning feedback loop for perception-driven refinement; (3) CutsceneBench, ahierarchical evaluation benchmark for cutscene generation。
短い、孤立した関数呼び出しを評価する一般的なツール使用ベンチマークとは異なり、カットスーン生成には、厳密な順序制約を持つ数十の相互依存ツール呼び出しの長期的、複数ステップのオーケストレーションが必要です。
我々は,CutsceneBench 上での LLM の範囲を評価し,この課題にまたがる性能を解析する。
関連論文リスト
- Agentic Video Generation: From Text to Executable Event Graphs via Tool-Constrained LLM Planning [4.964902130083661]
既存のマルチエージェントビデオ生成システムは、LLMエージェントを使用してニューラルビデオジェネレータをオーケストレーションする。
本稿では,このパラダイムを逆転させ,空間と時間におけるイベントの形式的なグラフを構築するエージェントシステムを提案する。
プログラム状態バックエンドは、検証済みのツールコールを通じてすべてのシミュレータの制約を強制し、生成されたすべての仕様が実行可能であることを保証します。
論文 参考訳(メタデータ) (2026-04-11T23:51:13Z) - Mind-of-Director: Multi-modal Agent-Driven Film Previsualization via Collaborative Decision-Making [35.41772376528704]
フィルムプリビズのためのマルチモーダルエージェント駆動フレームワークであるMind-of-Directorを提案する。
創造的なアイデアを与えられたMind-of-Directorは、ゲームエンジン内でプリヴィズシーケンスを生成するために複数の特殊エージェントを編成する。
さらに、ゲームエンジンに組み込まれたリアルタイムビジュアル編集システムにより、インタラクティブな検査および同期タイムライン調整が可能となる。
論文 参考訳(メタデータ) (2026-03-16T03:40:22Z) - The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文 参考訳(メタデータ) (2025-03-10T11:57:55Z) - Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation [36.46957675498949]
Anim-Directorは、自律的なアニメーション作成エージェントである。
LMMと生成AIツールの高度な理解と推論能力を活用する。
プロセス全体は、手作業による介入なしに、特に自律的である。
論文 参考訳(メタデータ) (2024-08-19T08:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。