論文の概要: CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
- arxiv url: http://arxiv.org/abs/2603.29664v1
- Date: Tue, 31 Mar 2026 12:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.641345
- Title: CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
- Title(参考訳): CutClaw: ミュージックシンクロナイゼーションによるエージェントによる長時間のビデオ編集
- Authors: Shifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun,
- Abstract要約: CutClawは、数時間の生の映像を意味のある短いビデオに編集するために設計された、自律的なマルチエージェントフレームワークだ。
同期音楽の動画を制作し、指示と視覚的に魅力的な外観が続く。
われわれは、CutClawが高品質なリズムアライメントビデオを生成する際に、最先端のベースラインを大幅に上回っていることを示すための詳細な実験を行っている。
- 参考スコア(独自算出の注目度): 96.62825277039117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.
- Abstract(参考訳): ビデオコンテンツをオーディオアライメントで編集することは、現在のソーシャルメディアにおけるデジタルヒューマンメイドアートを形成する。
しかし、手動ビデオ編集の時間的・反復的な性質は、映画製作者やプロのコンテンツ制作者にとっても長年の課題だった。
本稿では,複数のマルチモーダル言語モデル(MLLM)をエージェントシステムとして活用した,数時間の生映像を有意義なショートビデオに編集するための,自律型マルチエージェントフレームワークであるCutClawを紹介する。
同期音楽の動画を制作し、指示と視覚的に魅力的な外観が続く。
より詳しくは、我々のアプローチは、視覚的およびオーディオ的映像全体にわたる微細な細部とグローバルな構造の両方をキャプチャする階層的マルチモーダル分解を採用することから始まります。
そして、物語の一貫性を確保するために、プレイライターエージェントがストーリーテリングフロー全体をオーケストレーションし、長期の物語を構造化し、視覚的なシーンを音楽的なシフトに固定する。
最後に、短い編集ビデオを構築するために、編集者とレビューターエージェントは、厳密な美的および意味的な基準に基づいて、きめ細かい視覚的コンテンツを選択することで、最終カットを協調的に最適化する。
われわれは、CutClawが高品質なリズムアライメントビデオを生成する際に、最先端のベースラインを大幅に上回っていることを示すための詳細な実験を行っている。
コードは、https://github.com/GVCLab/CutClaw.comで入手できる。
関連論文リスト
- Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media [35.60423976124236]
タイムラインではなく自由形式のプロンプトを通じて、クリエイターが複数時間コンテンツを再構成するのに役立つプロンプト駆動のモジュール編集システムを提案する。
コアとなるセマンティックインデックスパイプラインは、時間分割、ガイド付きメモリ圧縮、粒度間の融合を通じてグローバルな物語を構築する。
我々のシステムは、即席編集をスケールし、物語の一貫性を保ち、自動化と創造者制御のバランスをとる。
論文 参考訳(メタデータ) (2025-09-20T21:22:56Z) - MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [24.22367257991941]
MAViSは、長時間のビデオストーリーテリングを支援するために設計されたマルチエージェント協調フレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
簡単なアイデア記述だけで、MAViSは、高品質で完全なロングシーケンス動画を効率よく生成することで、様々なビジュアルなストーリーテリングと、シーケンシャルなビデオ生成のための創造的な方向を素早く探索することができる。
論文 参考訳(メタデータ) (2025-08-11T21:42:41Z) - From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [16.83482677439144]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。