論文の概要: A Benchmark and Multi-Agent System for Instruction-driven Cinematic Video Compilation
- arxiv url: http://arxiv.org/abs/2604.10456v1
- Date: Sun, 12 Apr 2026 04:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.02724
- Title: A Benchmark and Multi-Agent System for Instruction-driven Cinematic Video Compilation
- Title(参考訳): インストラクション駆動型シネマティックビデオコンパイルのためのベンチマークとマルチエージェントシステム
- Authors: Peixuan Zhang, Chang Zhou, Ziyuan Zhang, Hualuo Liu, Chunjie Zhang, Jingqi Liu, Xiaohui Zhou, Xi Chen, Shuchen Weng, Si Li, Boxin Shi,
- Abstract要約: CineBenchは、命令駆動のシネマティックビデオコンパイルのための最初のベンチマークである。
CineAgentsは,映像編集をデザイン・アンド・コンポジションのパラダイムに再構成するマルチエージェントシステムである。
- 参考スコア(独自算出の注目度): 75.66313073019326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surging demand for adapting long-form cinematic content into short videos has motivated the need for versatile automatic video compilation systems. However, existing compilation methods are limited to predefined tasks, and the community lacks a comprehensive benchmark to evaluate the cinematic compilation. To address this, we introduce CineBench, the first benchmark for instruction-driven cinematic video compilation, featuring diverse user instructions and high-quality ground-truth compilations annotated by professional editors. To overcome contextual collapse and temporal fragmentation, we present CineAgents, a multi-agent system that reformulates cinematic video compilation into ``design-and-compose'' paradigm. CineAgents performs script reverse-engineering to construct a hierarchical narrative memory to provide multi-level context and employs an iterative narrative planning process that refines a creative blueprint into a final compiled script. Extensive experiments demonstrate that CineAgents significantly outperforms existing methods, generating compilations with superior narrative coherence and logical coherence.
- Abstract(参考訳): 長大な映像コンテンツを短いビデオに適応させるという需要が高まり、多目的な自動ビデオコンパイルシステムの必要性が高まっている。
しかし、既存のコンパイルメソッドは事前に定義されたタスクに限られており、コミュニティはシネマティックコンパイルを評価するための包括的なベンチマークを欠いている。
そこで本研究では,プロの編集者が注釈付けした多種多様なユーザ命令と高品質なグランドトラスコンパイルを特徴とする,命令駆動型シネマティックビデオコンピレーションの最初のベンチマークであるCineBenchを紹介する。
コンテクストの崩壊と時間的断片化を克服するため,映画映像のコンピレーションを「デザイン・アンド・コンプリート」パラダイムに変換するマルチエージェントシステムであるCineAgentsを提案する。
CineAgentsは、多段階のコンテキストを提供するために階層的な物語記憶を構築するためにスクリプトリバースエンジニアリングを行い、創造的なブループリントを最終コンパイルスクリプトに洗練する反復的な物語計画プロセスを採用している。
大規模な実験により、CineAgentsは既存の手法を著しく上回り、優れた物語コヒーレンスと論理コヒーレンスを持つコンパイルを生成することを示した。
関連論文リスト
- Camera Artist: A Multi-Agent Framework for Cinematic Language Storytelling Video Generation [4.910318162000904]
本稿では,現実の映画制作ワークフローをモデル化し,映像言語で物語ビデオを生成するマルチエージェントフレームワークであるCamera Artistを提案する。
カメラ・アーティストは、確立されたエージェント・パイプラインの上に構築され、専用のシネマトグラフィー・ショット・エージェント(Cinematography Shot Agent)を導入している。
論文 参考訳(メタデータ) (2026-04-10T10:27:52Z) - Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。
大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-02-12T10:14:36Z) - The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [16.83482677439144]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。