論文の概要: Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media
- arxiv url: http://arxiv.org/abs/2509.16811v1
- Date: Sat, 20 Sep 2025 21:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.984808
- Title: Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media
- Title(参考訳): プロンプト駆動型エージェントビデオ編集システム:長めの物語駆動メディアの自律的理解
- Authors: Zihan Ding, Junlong Chen, Per Ola Kristensson, Junxiao Shen, Xinyi Wang,
- Abstract要約: タイムラインではなく自由形式のプロンプトを通じて、クリエイターが複数時間コンテンツを再構成するのに役立つプロンプト駆動のモジュール編集システムを提案する。
コアとなるセマンティックインデックスパイプラインは、時間分割、ガイド付きメモリ圧縮、粒度間の融合を通じてグローバルな物語を構築する。
我々のシステムは、即席編集をスケールし、物語の一貫性を保ち、自動化と創造者制御のバランスをとる。
- 参考スコア(独自算出の注目度): 35.60423976124236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creators struggle to edit long-form, narrative-rich videos not because of UI complexity, but due to the cognitive demands of searching, storyboarding, and sequencing hours of footage. Existing transcript- or embedding-based methods fall short for creative workflows, as models struggle to track characters, infer motivations, and connect dispersed events. We present a prompt-driven, modular editing system that helps creators restructure multi-hour content through free-form prompts rather than timelines. At its core is a semantic indexing pipeline that builds a global narrative via temporal segmentation, guided memory compression, and cross-granularity fusion, producing interpretable traces of plot, dialogue, emotion, and context. Users receive cinematic edits while optionally refining transparent intermediate outputs. Evaluated on 400+ videos with expert ratings, QA, and preference studies, our system scales prompt-driven editing, preserves narrative coherence, and balances automation with creator control.
- Abstract(参考訳): クリエイターたちは、UIの複雑さではなく、検索、ストーリーボード、シークエンシングといった認知的な要求のために、長い形式の物語に富んだビデオを編集するのに苦労している。
既存の書き起こしや埋め込みベースのメソッドは、モデルが文字を追跡し、モチベーションを推測し、分散イベントを接続するのに苦労するため、創造的なワークフローでは不足する。
タイムラインではなく自由形式のプロンプトを通じて、クリエイターが複数時間コンテンツを再構成するのに役立つプロンプト駆動のモジュール編集システムを提案する。
コアとなるセマンティックインデックスパイプラインは、時間分割、ガイド付きメモリ圧縮、粒度融合を通じてグローバルな物語を構築し、プロット、対話、感情、コンテキストの解釈可能なトレースを生成する。
ユーザーはフィルム編集を受け取り、透明な中間出力を任意に精製する。
専門家評価、QA、嗜好研究を含む400以上のビデオに基づいて評価し、我々のシステムは、プロンプト駆動による編集をスケールし、物語の一貫性を保ち、クリエーターのコントロールと自動化のバランスをとる。
関連論文リスト
- From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [17.769963004697047]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - Text2Story: Advancing Video Storytelling with Text Guidance [20.51001299249891]
我々は、自然なアクション遷移と構造化された物語を伴うシームレスなビデオ生成を可能にする、AIを活用した新しいストーリーテリングフレームワークを導入する。
まず、長ビデオのセグメント間の時間的一貫性を確保するために、双方向の時間重み付き潜在ブレンディング戦略を提案する。
次に,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的に調整する動的インフォームドプロンプト重み付け機構を導入する。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。