論文の概要: EasyV2V: A High-quality Instruction-based Video Editing Framework
- arxiv url: http://arxiv.org/abs/2512.16920v1
- Date: Thu, 18 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.258994
- Title: EasyV2V: A High-quality Instruction-based Video Editing Framework
- Title(参考訳): EasyV2V:高品質なインストラクションベースのビデオ編集フレームワーク
- Authors: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei,
- Abstract要約: キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
- 参考スコア(独自算出の注目度): 108.78294392167017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce \emph{EasyV2V}, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
- Abstract(参考訳): 画像編集は急速に進歩しているが、ビデオ編集は、一貫性、制御、一般化の課題に直面している。
本稿では,データ,アーキテクチャ,制御の設計空間について検討し,命令ベースの映像編集のためのシンプルで効果的なフレームワークである \emph{EasyV2V} を紹介する。
データ側では、さまざまなビデオペアの構築、単一フレームの監督と共有アフィンモーションによる擬似ペアによるビデオへのイメージ編集、ビデオペアのための高密度キャプションクリップのマイニング、編集の展開方法を教える移行インスペクティブを追加するために、高速な逆変換を持つ既存の専門家を構成します。
モデル側では、事前訓練されたテキスト・ビデオモデルが編集機能を有しており、単純化された設計を動機付けている。
軽量LORA微調整サファイスによる条件付けのための簡単なシーケンス結合により、強いモデルを訓練する。
制御のために、単一マスク機構を介して時空間制御を統一し、任意の参照画像をサポートする。
全体として、EasyV2Vはフレキシブルな入力(例えば、 video+text、 video+mask+text、 video+mask+reference+text)で動作し、最先端のビデオ編集結果を達成し、同時および商用システムを上回る。
プロジェクトページ: https://snap-research.github.io/easyv2v/
関連論文リスト
- LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning [8.077442711429317]
第一フレーム制御は第一フレームの制御を提供するが、その後のフレームの柔軟性には欠ける。
フレキシブルなビデオ編集のための2Vモデルに適応するマスクベースのLoRA(Low-Rank Adaptation)手法を提案する。
実験結果から,本手法はベースライン法よりも優れた映像編集性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-11T18:03:55Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - ControlVideo: Conditional Control for One-shot Text-driven Video Editing
and Beyond [45.188722895165505]
ControlVideoは、ソースビデオの構造を保持しながら、所定のテキストと整列するビデオを生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルに基づいて構築されたコントロールビデオは、忠実度と時間的一貫性を高める。
論文 参考訳(メタデータ) (2023-05-26T17:13:55Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。