論文の概要: FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing
- arxiv url: http://arxiv.org/abs/2603.01164v1
- Date: Sun, 01 Mar 2026 16:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.546075
- Title: FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing
- Title(参考訳): FREE-Edit:Zero-shot Image-Driven Video Editingのための修正フローモデルにおける編集対応インジェクションの利用
- Authors: Maomao Li, Yunfei Liu, Yu Li,
- Abstract要約: 画像駆動ビデオ編集は、修正された第1フレームから残りのフレームへの編集内容を伝達することを目的としている。
現在の方法は、通常、事前訓練された画像対ビデオ(I2V)モデルを用いてソースビデオからノイズに反転し、編集された第1フレームを使用してサンプリングプロセスをガイドする。
本稿では,各トークンの注入強度を変調する Editing-awaRE (REE) インジェクション法を提案する。
- 参考スコア(独自算出の注目度): 12.549184989151135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-driven video editing aims to propagate edit contents from the modified first frame to the rest frames. The existing methods usually invert the source video to noise using a pre-trained image-to-video (I2V) model and then guide the sampling process using the edited first frame. Generally, a popular choice for maintaining motion and layout from the source video is intervening in the denoising process by injecting attention during reconstruction. However, such injection often leads to unsatisfactory results, where excessive injection leads to conflicting semantics from the source video while insufficient injection brings limited source representation. Recognizing this, we propose an Editing-awaRE (REE) injection method to modulate injection intensity of each token. Specifically, we first compute the pixel difference between the source and edited first frame to form a corresponding editing mask. Next, we track the editing area throughout the entire video by using optical flow to warp the first-frame mask. Then, editing-aware feature injection intensity for each token is generated accordingly, where injection is not conducted on editing areas. Building upon REE injection, we further propose a zero-shot image-driven video editing framework with recent-emerging rectified-Flow models, dubbed FREE-Edit. Without fine-tuning or training, our FREE-Edit demonstrates effectiveness in various image-driven video editing scenarios, showing its capability to produce higher-quality outputs compared with existing techniques. Project page: https://free-edit.github.io/page/.
- Abstract(参考訳): 画像駆動ビデオ編集は、修正された第1フレームから残りのフレームへの編集内容を伝達することを目的としている。
既存の手法は通常、事前訓練されたイメージ・トゥ・ビデオ(I2V)モデルを用いてソース・ビデオからノイズに反転し、編集された第1フレームを使用してサンプリングプロセスをガイドする。
一般に、ソースビデオからの動作とレイアウトを維持するための一般的な選択は、再構成中に注意を注ぐことで、デノナイズプロセスに介入する。
しかし、このようなインジェクションは、過剰なインジェクションがソースビデオのセマンティクスと矛盾し、不十分なインジェクションがソース表現に制限をもたらす、不満足な結果をもたらすことが多い。
これを認識し,各トークンの注入強度を変調する Editing-awaRE (REE) インジェクション法を提案する。
具体的には、まずソースと編集第1フレームの画素差を計算し、対応する編集マスクを形成する。
次に、第1フレームマスクをワープするために光学フローを用いて、ビデオ全体を通して編集領域を追跡する。
そして、各トークンに対する編集対応特徴注入強度を生成し、編集領域に注入を行わない。
REEインジェクションをベースとして,FREE-Editと呼ばれる最近の修正フローモデルを用いたゼロショット画像駆動ビデオ編集フレームワークを提案する。
我々のFREE-Editは、微調整やトレーニングなしで、様々な画像駆動のビデオ編集シナリオで効果を示し、既存の技術と比較して高品質な出力を生成する能力を示している。
プロジェクトページ: https://free-edit.github.io/page/。
関連論文リスト
- ProEdit: Inversion-based Editing From Prompts Done Right [63.554692704101]
インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
論文 参考訳(メタデータ) (2025-12-26T18:59:14Z) - Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文 参考訳(メタデータ) (2025-09-26T05:57:04Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。