論文の概要: EditDuet: A Multi-Agent System for Video Non-Linear Editing
- arxiv url: http://arxiv.org/abs/2509.10761v1
- Date: Sat, 13 Sep 2025 00:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.768216
- Title: EditDuet: A Multi-Agent System for Video Non-Linear Editing
- Title(参考訳): EditDuet:ビデオ非線形編集のためのマルチエージェントシステム
- Authors: Marcelo Sandoval-Castaneda, Bryan Russell, Josef Sivic, Gregory Shakhnarovich, Fabian Caba Heilbron,
- Abstract要約: 本稿では,映像編集のコアタスクを自動化し,シーケンシャルな意思決定プロセスとして定式化することを提案する。
エディターは、自然言語の指示とともにビデオクリップのコレクションを入力とし、ビデオ編集ソフトウェアで一般的に見られるツールを使用して、編集されたシーケンスを生成する。
提案システムでは,ユーザスタディを通じて質的,定量的に映像シーケンスを出力し,カバー範囲,時間制約満足度,人的嗜好の面で既存手法を著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 24.334561615501105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated tools for video editing and assembly have applications ranging from filmmaking and advertisement to content creation for social media. Previous video editing work has mainly focused on either retrieval or user interfaces, leaving actual editing to the user. In contrast, we propose to automate the core task of video editing, formulating it as sequential decision making process. Ours is a multi-agent approach. We design an Editor agent and a Critic agent. The Editor takes as input a collection of video clips together with natural language instructions and uses tools commonly found in video editing software to produce an edited sequence. On the other hand, the Critic gives natural language feedback to the editor based on the produced sequence or renders it if it is satisfactory. We introduce a learning-based approach for enabling effective communication across specialized agents to address the language-driven video editing task. Finally, we explore an LLM-as-a-judge metric for evaluating the quality of video editing system and compare it with general human preference. We evaluate our system's output video sequences qualitatively and quantitatively through a user study and find that our system vastly outperforms existing approaches in terms of coverage, time constraint satisfaction, and human preference.
- Abstract(参考訳): ビデオ編集と組み立てのための自動ツールには、映画制作や広告からソーシャルメディアのコンテンツ制作まで幅広い応用がある。
以前のビデオ編集作業は主に検索かユーザインターフェースに重点を置いており、実際の編集はユーザに任せている。
これとは対照的に、ビデオ編集のコアタスクを自動化し、シーケンシャルな意思決定プロセスとして定式化することを提案する。
私たちのアプローチはマルチエージェントです。
我々は編集者エージェントと批評家エージェントを設計する。
エディターは、自然言語の指示とともにビデオクリップのコレクションを入力とし、ビデオ編集ソフトウェアで一般的に見られるツールを使用して、編集されたシーケンスを生成する。
一方、Cryticは、生成されたシーケンスに基づいて、自然言語フィードバックをエディタに与えたり、満足できる場合、それをレンダリングする。
本稿では,言語駆動のビデオ編集タスクに対処するために,特殊エージェント間の効果的なコミュニケーションを実現するための学習ベースのアプローチを提案する。
最後に,ビデオ編集システムの品質評価のためのLCM-as-a-judgeメトリックについて検討し,一般人の好みと比較する。
提案システムでは,ユーザスタディを通じて質的,定量的に映像シーケンスを出力し,カバー範囲,時間制約満足度,人的嗜好の面で既存手法を著しく上回る結果を得た。
関連論文リスト
- From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [17.769963004697047]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。
本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。
その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:57:43Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - ExpressEdit: Video Editing with Natural Language and Sketching [28.814923641627825]
マルチモダリティ$-$natural Language (NL) とスケッチは、人間が表現に使用する自然なモダリティであり、ビデオエディタをサポートするために$-$canを使用することができる。
我々は,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
論文 参考訳(メタデータ) (2024-03-26T13:34:21Z) - LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video
Editing [23.010237004536485]
大きな言語モデル(LLM)は、初心者の障壁を減らすためにビデオ編集ワークフローに統合することができる。
LAVEはLLMを利用したエージェントアシストと言語拡張編集機能を提供する新しいシステムである。
初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:53:11Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor [44.36920938661454]
本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
評価の結果,人為的編集の効率が向上し,映像の質が向上した。
論文 参考訳(メタデータ) (2021-10-16T14:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。