論文の概要: ESA: Energy-Based Shot Assembly Optimization for Automatic Video Editing
- arxiv url: http://arxiv.org/abs/2511.02505v2
- Date: Wed, 05 Nov 2025 04:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.192487
- Title: ESA: Energy-Based Shot Assembly Optimization for Automatic Video Editing
- Title(参考訳): ESA:自動ビデオ編集のためのエネルギーベースショットアセンブリ最適化
- Authors: Yaosen Chen, Wei Wang, Tianheng Zheng, Xuming Wen, Han Yang, Yanru Zhang,
- Abstract要約: ショットアセンブリは、映画制作とビデオ編集において重要なステップである。
伝統的に、このプロセスは経験豊富な編集者によって手動で実行される。
本稿では,映像合成のためのエネルギーベース最適化手法を提案する。
- 参考スコア(独自算出の注目度): 12.967240894970098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shot assembly is a crucial step in film production and video editing, involving the sequencing and arrangement of shots to construct a narrative, convey information, or evoke emotions. Traditionally, this process has been manually executed by experienced editors. While current intelligent video editing technologies can handle some automated video editing tasks, they often fail to capture the creator's unique artistic expression in shot assembly. To address this challenge, we propose an energy-based optimization method for video shot assembly. Specifically, we first perform visual-semantic matching between the script generated by a large language model and a video library to obtain subsets of candidate shots aligned with the script semantics. Next, we segment and label the shots from reference videos, extracting attributes such as shot size, camera motion, and semantics. We then employ energy-based models to learn from these attributes, scoring candidate shot sequences based on their alignment with reference styles. Finally, we achieve shot assembly optimization by combining multiple syntax rules, producing videos that align with the assembly style of the reference videos. Our method not only automates the arrangement and combination of independent shots according to specific logic, narrative requirements, or artistic styles but also learns the assembly style of reference videos, creating a coherent visual sequence or holistic visual expression. With our system, even users with no prior video editing experience can create visually compelling videos. Project page: https://sobeymil.github.io/esa.com
- Abstract(参考訳): ショットアセンブリは、映画制作とビデオ編集において重要なステップであり、ストーリーの構築、情報伝達、感情の誘発にショットのシークエンシングとアレンジを含む。
伝統的に、このプロセスは経験豊富な編集者によって手動で実行される。
現在のインテリジェントなビデオ編集技術は、いくつかの自動化されたビデオ編集タスクを処理できるが、クリエーターのユニークな芸術的表現をショットアセンブリでキャプチャすることができないことが多い。
そこで我々は,この課題に対処するために,映像合成のためのエネルギーベース最適化手法を提案する。
具体的には、まず大きな言語モデルによって生成されたスクリプトとビデオライブラリとの間で視覚的セマンティックマッチングを行い、スクリプトのセマンティクスに整合した候補ショットのサブセットを得る。
次に、参照ビデオからショットを分類してラベル付けし、ショットサイズ、カメラモーション、セマンティクスなどの属性を抽出する。
次に、エネルギーモデルを用いてこれらの属性から学習し、参照スタイルとのアライメントに基づいて候補ショットシーケンスをスコアリングする。
最後に、複数の構文規則を組み合わせることでショットアセンブリの最適化を実現し、参照ビデオのアセンブリスタイルに合わせてビデオを生成する。
本手法は,特定の論理や物語の要求,芸術的スタイルに従って,独立したショットの配置と組み合わせを自動化するだけでなく,参照ビデオの組み立てスタイルを学習し,一貫性のある視覚シーケンスや全体的視覚表現を生成する。
私たちのシステムでは、事前のビデオ編集経験のないユーザでさえ、視覚的に魅力的なビデオを作ることができます。
プロジェクトページ:https://sobeymil.github.io/esa.com
関連論文リスト
- EditDuet: A Multi-Agent System for Video Non-Linear Editing [24.334561615501105]
本稿では,映像編集のコアタスクを自動化し,シーケンシャルな意思決定プロセスとして定式化することを提案する。
エディターは、自然言語の指示とともにビデオクリップのコレクションを入力とし、ビデオ編集ソフトウェアで一般的に見られるツールを使用して、編集されたシーケンスを生成する。
提案システムでは,ユーザスタディを通じて質的,定量的に映像シーケンスを出力し,カバー範囲,時間制約満足度,人的嗜好の面で既存手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2025-09-13T00:27:02Z) - VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation [70.87745520234012]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - EditIQ: Automated Cinematic Editing of Static Wide-Angle Videos via Dialogue Interpretation and Saliency Cues [6.844857856353673]
我々は、静止画、大視野、高解像度カメラで撮影されたシーンを撮影的に編集する、完全に自動化されたフレームワークEditIQを提案する。
静的カメラフィードから、EditIQは最初、複数の仮想フィードを生成し、カメラマンのチームをエミュレートする。
これらの仮想カメラショットは後に自動編集アルゴリズムを用いて組み立てられ、その目的は視聴者に最も鮮明なシーンコンテンツを提示することである。
論文 参考訳(メタデータ) (2025-02-04T09:45:52Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。