論文の概要: Taming Flow-based I2V Models for Creative Video Editing
- arxiv url: http://arxiv.org/abs/2509.21917v1
- Date: Fri, 26 Sep 2025 05:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.217779
- Title: Taming Flow-based I2V Models for Creative Video Editing
- Title(参考訳): 創造的ビデオ編集のためのフローベースI2Vモデルの作成
- Authors: Xianghao Kong, Hansheng Chen, Yuwei Guo, Lvmin Zhang, Gordon Wetzstein, Maneesh Agrawala, Anyi Rao,
- Abstract要約: ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
- 参考スコア(独自算出の注目度): 64.67801702413122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although image editing techniques have advanced significantly, video editing, which aims to manipulate videos according to user intent, remains an emerging challenge. Most existing image-conditioned video editing methods either require inversion with model-specific design or need extensive optimization, limiting their capability of leveraging up-to-date image-to-video (I2V) models to transfer the editing capability of image editing models to the video domain. To this end, we propose IF-V2V, an Inversion-Free method that can adapt off-the-shelf flow-matching-based I2V models for video editing without significant computational overhead. To circumvent inversion, we devise Vector Field Rectification with Sample Deviation to incorporate information from the source video into the denoising process by introducing a deviation term into the denoising vector field. To further ensure consistency with the source video in a model-agnostic way, we introduce Structure-and-Motion-Preserving Initialization to generate motion-aware temporally correlated noise with structural information embedded. We also present a Deviation Caching mechanism to minimize the additional computational cost for denoising vector rectification without significantly impacting editing quality. Evaluations demonstrate that our method achieves superior editing quality and consistency over existing approaches, offering a lightweight plug-and-play solution to realize visual creativity.
- Abstract(参考訳): 画像編集技術は飛躍的に進歩してきたが、ユーザの意図に応じて動画を編集するビデオ編集はいまだに課題となっている。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とするため、画像編集モデルの編集能力をビデオドメインに転送するために、最新の画像-ビデオ(I2V)モデルを活用する能力を制限する。
そこで本研究では,ビデオ編集のためのオフザシェルフフローマッチングベースのI2Vモデルを,計算オーバーヘッドを伴わずに適用可能なIF-V2Vを提案する。
インバージョンを回避するため,サンプル偏差を用いたベクトル場整流法を考案し,音源映像からの情報を復調処理に組み込むことで,偏差項を復調ベクトル場に導入する。
モデルに依存しない方法でソースビデオとの整合性を確保するため,構造と運動の保存初期化を導入し,時間的相関ノイズと構造情報の埋め込みを生成する。
また,ベクターの修正に要する余分な計算コストを最小限に抑えるため,編集品質に大きな影響を及ぼすことなく,偏差キャッシング機構を提案する。
提案手法は既存の手法よりも優れた編集品質と一貫性を実現し,視覚的創造性を実現するための軽量なプラグアンドプレイソリューションを提供する。
関連論文リスト
- Consistent Video Editing as Flow-Driven Image-to-Video Generation [6.03121849763522]
FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートする。
DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
論文 参考訳(メタデータ) (2025-06-09T12:57:30Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。