論文の概要: RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing
- arxiv url: http://arxiv.org/abs/2602.06871v1
- Date: Fri, 06 Feb 2026 16:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.497288
- Title: RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing
- Title(参考訳): RFDM:効率的な因果ビデオ編集のための残留流拡散モデル
- Authors: Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale, Ruchika Chavhan, Malcolm Chadwick, Alberto Gil Ramos, Abhinav Mehrotra,
- Abstract要約: 本稿では,フレーム単位で可変長ビデオフレームを編集する因果的,効率的なビデオ編集モデルを提案する。
効率を上げるために、2次元画像画像画像(I2I)拡散モデルから始め、V2V(V2V)編集に適応させる。
我々はこの残留流拡散モデル(Residual Flow Diffusion Model, RFDM)と呼ぶ。
- 参考スコア(独自算出の注目度): 15.876564621196684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instructional video editing applies edits to an input video using only text prompts, enabling intuitive natural-language control. Despite rapid progress, most methods still require fixed-length inputs and substantial compute. Meanwhile, autoregressive video generation enables efficient variable-length synthesis, yet remains under-explored for video editing. We introduce a causal, efficient video editing model that edits variable-length videos frame by frame. For efficiency, we start from a 2D image-to-image (I2I) diffusion model and adapt it to video-to-video (V2V) editing by conditioning the edit at time step t on the model's prediction at t-1. To leverage videos' temporal redundancy, we propose a new I2I diffusion forward process formulation that encourages the model to predict the residual between the target output and the previous prediction. We call this Residual Flow Diffusion Model (RFDM), which focuses the denoising process on changes between consecutive frames. Moreover, we propose a new benchmark that better ranks state-of-the-art methods for editing tasks. Trained on paired video data for global/local style transfer and object removal, RFDM surpasses I2I-based methods and competes with fully spatiotemporal (3D) V2V models, while matching the compute of image models and scaling independently of input video length. More content can be found in: https://smsd75.github.io/RFDM_page/
- Abstract(参考訳): インストラクショナルビデオ編集は、テキストプロンプトのみを使用して、入力ビデオに編集を適用し、直感的な自然言語制御を可能にする。
急速な進歩にもかかわらず、ほとんどの手法は固定長の入力とかなりの計算を必要とする。
一方、自動回帰ビデオ生成は、効率的な可変長合成を可能にするが、ビデオ編集には未探索のままである。
本稿では,フレーム単位で可変長ビデオフレームを編集する因果的,効率的なビデオ編集モデルを提案する。
まず,2次元画像画像拡散モデル(I2I)から始めて,t-1におけるモデルの予測に基づいて,時間ステップtで編集を条件付け,ビデオ映像編集(V2V)に適応する。
ビデオの時間的冗長性を活用するために,対象出力と先行予測の間の残差を予測するための新しいI2I拡散前処理の定式化を提案する。
我々はこの残留流拡散モデル(Residual Flow Diffusion Model, RFDM)と呼ぶ。
さらに,タスクを編集するための最先端手法をよりよくランク付けする新しいベンチマークを提案する。
RFDMは、グローバル/ローカルなスタイル転送とオブジェクト削除のためのペアビデオデータに基づいて、I2Iベースの手法を超越し、完全な時空間(3D)V2Vモデルと競合すると同時に、画像モデルの計算と入力ビデオ長と独立にスケールする。
より詳しい内容は、https://smsd75.github.io/RFDM_page/.com/で確認できる。
関連論文リスト
- FluencyVE: Marrying Temporal-Aware Mamba with Bypass Attention for Video Editing [18.175125648090262]
大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。
近年のビデオ編集作業は、ビデオタスクに時間的注意機構を加えることで、事前訓練されたテキスト・ツー・イメージモデルに適応している。
本稿では,シンプルだが効果的なワンショットビデオ編集手法であるFluencyVEを提案する。
論文 参考訳(メタデータ) (2025-12-24T07:21:59Z) - Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文 参考訳(メタデータ) (2025-09-26T05:57:04Z) - Consistent Video Editing as Flow-Driven Image-to-Video Generation [6.03121849763522]
FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートする。
DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
論文 参考訳(メタデータ) (2025-06-09T12:57:30Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。