論文の概要: Versatile Editing of Video Content, Actions, and Dynamics without Training
- arxiv url: http://arxiv.org/abs/2603.17989v1
- Date: Wed, 18 Mar 2026 17:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.869102
- Title: Versatile Editing of Video Content, Actions, and Dynamics without Training
- Title(参考訳): ビデオコンテンツ, アクション, ダイナミクスの学習なしでのヴァーサタイル編集
- Authors: Vladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli,
- Abstract要約: 我々はDynaEditを紹介した。DynaEditは、事前訓練されたテキスト・ツー・ビデオ・フローモデルを用いて、多目的なビデオ編集機能を解放する訓練不要の編集方法である。
そこで,DynaEditは複雑なテキストベースのビデオ編集タスクにおいて,アクションの変更,シーンと対話するオブジェクトの挿入,グローバルな効果の導入など,最先端の成果を達成していることを示す。
- 参考スコア(独自算出の注目度): 57.167192591765456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.
- Abstract(参考訳): 制御されたビデオ生成は近年劇的に改善されている。
しかし、アクションや動的なイベントの編集や、実際のビデオにおける他のオブジェクトの振る舞いに影響を与える内容の挿入は、依然として大きな課題である。
既存のトレーニングされたモデルは、おそらく関連するトレーニングデータの収集が困難であるため、複雑な編集に苦労する。
同様に、既存のトレーニングなしの手法は、本質的には構造保存と運動保存の編集に制限されており、動きや相互作用の修正をサポートしていない。
そこで,DynaEditを紹介した。DynaEditは,事前学習したテキスト・ビデオ・フロー・モデルを用いて,多機能なビデオ編集機能を実現する。
提案手法はモデル内部に介在せず,従ってモデルに依存しない,最近導入された反転のない手法に依存している。
この手法を一般の制約のない編集に適応しようとすると、重度の低周波不整合と高周波ジッタが生じる。
本稿では,これらの現象の原因を説明し,克服するための新しいメカニズムを紹介する。
広範にわたる実験を通して、DynaEditは、アクションの変更、シーンと対話するオブジェクトの挿入、グローバルエフェクトの導入など、複雑なテキストベースのビデオ編集タスクにおいて、最先端の結果が得られることを示す。
関連論文リスト
- MotionEdit: Benchmarking and Learning Motion-Centric Image Editing [81.28392925790568]
動き中心の画像編集のための新しいデータセットであるMotionEditを紹介する。
MotionEditは、連続ビデオから抽出されたリアルな動き変換を描写した高忠実な画像ペアを提供する。
本研究では,入力画像とモデル編集画像間の動きの流れが地中動とどのように一致しているかに基づいて,動きアライメントの報酬を計算するためにMotionNFTを提案する。
論文 参考訳(メタデータ) (2025-12-11T04:53:58Z) - O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。
時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。
また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文 参考訳(メタデータ) (2025-03-22T04:12:20Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。