論文の概要: DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing
- arxiv url: http://arxiv.org/abs/2604.04875v1
- Date: Mon, 06 Apr 2026 17:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.308861
- Title: DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing
- Title(参考訳): DIRECT:階層型マルチエージェント計画とインテントガイド編集によるビデオマッシュアップ作成
- Authors: Ke Li, Maoliang Li, Jialiang Chen, Jiayu Chen, Zihao Zheng, Shaoqi Wang, Xiang Chen,
- Abstract要約: ビデオマッシュアップ作成は、既存の映像を再構成して、魅力的なオーディオ視覚体験を作り出す複雑なビデオ編集パラダイムである。
マルチモーダルコヒーレンシー満足度問題(MMCSP)としてビデオマッシュアップ生成を定式化し,DIRECTフレームワークを提案する。
階層的なマルチエージェントフレームワークは,この課題を3つのカスケードレベルに分解する。ソースを意識したグローバルな構造アンカーのためのスクリーンライタ,適応的な編集意図とガイダンスをインスタンス化するディレクタ,微粒な最適化によるインテントガイド付きショットシーケンス編集のためのエディタ。
- 参考スコア(独自算出の注目度): 17.53577850169204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video mashup creation represents a complex video editing paradigm that recomposes existing footage to craft engaging audio-visual experiences, demanding intricate orchestration across semantic, visual, and auditory dimensions and multiple levels. However, existing automated editing frameworks often overlook the cross-level multimodal orchestration to achieve professional-grade fluidity, resulting in disjointed sequences with abrupt visual transitions and musical misalignment. To address this, we formulate video mashup creation as a Multimodal Coherency Satisfaction Problem (MMCSP) and propose the DIRECT framework. Simulating a professional production pipeline, our hierarchical multi-agent framework decomposes the challenge into three cascade levels: the Screenwriter for source-aware global structural anchoring, the Director for instantiating adaptive editing intent and guidance, and the Editor for intent-guided shot sequence editing with fine-grained optimization. We further introduce Mashup-Bench, a comprehensive benchmark with tailored metrics for visual continuity and auditory alignment. Extensive experiments demonstrate that DIRECT significantly outperforms state-of-the-art baselines in both objective metrics and human subjective evaluation. Project page and code: https://github.com/AK-DREAM/DIRECT
- Abstract(参考訳): ビデオマッシュアップ作成は、既存の映像を再構成して、魅力的なオーディオ視覚体験を創造する複雑なビデオ編集パラダイムであり、セマンティック、ビジュアル、聴覚の次元と複数のレベルにまたがる複雑なオーケストレーションを要求する。
しかし、既存の自動編集フレームワークは、プロレベルの流動性を達成するために、しばしばクロスレベルなマルチモーダルオーケストレーションを見落とし、突然の視覚的遷移と音楽的不整合を伴う不整合シーケンスをもたらす。
そこで我々は,ビデオマッシュアップ作成をMMCSP(Multimodal Coherency Satisfaction Problem)として定式化し,DIRECTフレームワークを提案する。
プロのプロダクションパイプラインをシミュレートし、我々の階層的なマルチエージェントフレームワークは、この課題を3つのカスケードレベルに分解する: ソース・アウェア・グローバルな構造アンカーのためのスクリーンライター、適応的な編集意図とガイダンスをインスタンス化するディレクター、微粒な最適化によるインテント誘導ショットシーケンス編集のためのエディタ。
Mashup-Benchは、視覚的連続性と聴覚的アライメントを調整した、総合的なベンチマークである。
大規模な実験により、DIRECTは客観的指標と人間の主観的評価の両方において最先端のベースラインを著しく上回ることが示された。
プロジェクトページとコード:https://github.com/AK-DREAM/DIRECT
関連論文リスト
- CutClaw: Agentic Hours-Long Video Editing via Music Synchronization [96.62825277039117]
CutClawは、数時間の生の映像を意味のある短いビデオに編集するために設計された、自律的なマルチエージェントフレームワークだ。
同期音楽の動画を制作し、指示と視覚的に魅力的な外観が続く。
われわれは、CutClawが高品質なリズムアライメントビデオを生成する際に、最先端のベースラインを大幅に上回っていることを示すための詳細な実験を行っている。
論文 参考訳(メタデータ) (2026-03-31T12:25:53Z) - Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。
大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-02-12T10:14:36Z) - IMAGAgent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection [40.21337735524356]
IMAGAgentは、"plan-execute-reflect"クローズドループメカニズムに基づいたマルチターン画像編集エージェントフレームワークである。
命令解析、ツールスケジューリング、および統一パイプライン内の適応補正の深いシナジーを実現する。
構築した textbfMTEditBench と MagicBrush データセットによる実験により,IMAGAgent が既存の手法よりもはるかに優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-12T02:37:38Z) - Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文 参考訳(メタデータ) (2026-02-10T10:01:16Z) - MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [24.22367257991941]
MAViSは、長時間のビデオストーリーテリングを支援するために設計されたマルチエージェント協調フレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
簡単なアイデア記述だけで、MAViSは、高品質で完全なロングシーケンス動画を効率よく生成することで、様々なビジュアルなストーリーテリングと、シーケンシャルなビデオ生成のための創造的な方向を素早く探索することができる。
論文 参考訳(メタデータ) (2025-08-11T21:42:41Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration [20.988801611785522]
コンポジションテキスト・ビデオ生成を可能にする反復型マルチエージェントフレームワークであるGenMACを提案する。
コラボレーションワークフローには、Design、Generation、Redesignの3つのステージが含まれている。
コンポジションテキスト・ビデオ生成の多様なシナリオに対処するために,各シナリオに特化している修正エージェントのコレクションから適切な修正エージェントを適応的に選択するセルフルーティング機構を設計する。
論文 参考訳(メタデータ) (2024-12-05T18:56:05Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。