論文の概要: VeloEdit: Training-Free Consistent and Continuous Instruction-Based Image Editing via Velocity Field Decomposition
- arxiv url: http://arxiv.org/abs/2603.13388v1
- Date: Wed, 11 Mar 2026 06:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.153013
- Title: VeloEdit: Training-Free Consistent and Continuous Instruction-Based Image Editing via Velocity Field Decomposition
- Title(参考訳): VeloEdit: 速度場分解によるトレーニング不要で連続的インストラクションに基づく画像編集
- Authors: Zongqing Li, Zhihui Liu, Yujie Xie, Shansiyuan Wu, Hongshen Lv, Songzhi Su,
- Abstract要約: 本稿では,高度に一貫した制御可能な編集を可能にするトレーニング不要なVeloEditを提案する。
VeloEditは、ソースコンテンツの保存に責任があるベロシティフィールドと、所望の編集を実行するものとの違いを定量化することによって、編集領域を識別する。
Flux.1 Kontext と Qwen-Image-Edit の実験により、VeloEdit は視覚的一貫性を改善し、余分な計算コストで連続性を編集することを示した。
- 参考スコア(独自算出の注目度): 4.524821181036816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing aims to modify source content according to textual instructions. However, existing methods built upon flow matching often struggle to maintain consistency in non-edited regions due to denoising-induced reconstruction errors that cause drift in preserved content. Moreover, they typically lack fine-grained control over edit strength. To address these limitations, we propose VeloEdit, a training-free method that enables highly consistent and continuously controllable editing. VeloEdit dynamically identifies editing regions by quantifying the discrepancy between the velocity fields responsible for preserving source content and those driving the desired edits. Based on this partition, we enforce consistency in preservation regions by substituting the editing velocity with the source-restoring velocity, while enabling continuous modulation of edit intensity in target regions via velocity interpolation. Unlike prior works that rely on complex attention manipulation or auxiliary trainable modules, VeloEdit operates directly on the velocity fields. Extensive experiments on Flux.1 Kontext and Qwen-Image-Edit demonstrate that VeloEdit improves visual consistency and editing continuity with negligible additional computational cost. Code is available at https://github.com/xmulzq/VeloEdit.
- Abstract(参考訳): インストラクションベースの画像編集は、テキストの指示に従ってソース内容を変更することを目的としている。
しかし,フローマッチングに基づく既存の手法では,保存されたコンテンツのドリフトの原因となるデノイングによる復元誤差により,非編集領域の一貫性の維持に苦慮することが多い。
さらに、編集強度に対するきめ細かい制御が欠けているのが一般的である。
このような制約に対処するために,高度に一貫性のある連続的な編集を可能にするトレーニング不要なVeloEditを提案する。
VeloEditは、ソースコンテンツの保存に責任がある速度場と、所望の編集を実行するものとの差分を定量化することにより、編集領域を動的に識別する。
この分割に基づいて、我々は、編集速度をソース復元速度に置換し、速度補間による目標領域の編集強度の連続的な変調を可能にすることにより、保存領域の一貫性を強制する。
複雑な注意操作や補助的な訓練可能なモジュールに依存する以前の作業とは異なり、VeloEditは速度場を直接操作する。
Flux.1の広範囲にわたる実験
Kontext と Qwen-Image-Edit は、VeloEdit が視覚的一貫性を改善し、余分な計算コストで連続性を編集することを示した。
コードはhttps://github.com/xmulzq/VeloEditで入手できる。
関連論文リスト
- SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing [75.29825659756351]
FlashEditは、高忠実でリアルタイムな画像編集を可能にするように設計された新しいフレームワークである。
その効率性は,(1)コストのかかる反復プロセスをバイパスするワンステップ・インバージョン・アンド・編集(OSIE)パイプライン,(2)編集領域内でのみ特徴を選択的に修正することで背景保存を保証するバックグラウンドシールド(BG-Shield)技術,(3)背景への意味的漏洩を抑えることで正確な局所的編集を保証するスカラー化空間横断認識(SSCA)機構の3つの重要なイノベーションに由来する。
論文 参考訳(メタデータ) (2025-09-26T11:59:30Z) - InstantEdit: Text-Guided Few-Step Image Editing with Piecewise Rectified Flow [19.972879378697215]
本稿では,RectifiedFlowフレームワークに基づくInstantEditと呼ばれる高速テキスト誘導画像編集手法を提案する。
提案手法は,PerRFIと呼ばれる特殊反転戦略を導入することにより,RectifiedFlowのストレートサンプリングトラジェクトリを利用する。
また、インバージョン中に得られた潜伏情報を効果的に再利用し、よりコヒーレントで詳細な再生を容易にする新しい再生法Inversion Latent Injectionを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:38:17Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。