論文の概要: Continuous Control of Editing Models via Adaptive-Origin Guidance
- arxiv url: http://arxiv.org/abs/2602.03826v1
- Date: Tue, 03 Feb 2026 18:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.643273
- Title: Continuous Control of Editing Models via Adaptive-Origin Guidance
- Title(参考訳): Adaptive-Origin Guidanceによる編集モデルの連続制御
- Authors: Alon Wolf, Chen Katzir, Kfir Aberman, Or Patashnik,
- Abstract要約: 拡散に基づく編集モデルは、意味論と画像編集の強力なツールとして登場した。
AdaOr(Adaptive-Origin Guidance、アダオル)は、標準ガイダンスの原点をアイデンティティ条件付き適応原点で調整する手法である。
本手法は画像および映像の編集作業において,現在のスライダベースの編集手法に比べてスムーズで一貫した制御が可能であることを示す。
- 参考スコア(独自算出の注目度): 27.623081798640907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based editing models have emerged as a powerful tool for semantic image and video manipulation. However, existing models lack a mechanism for smoothly controlling the intensity of text-guided edits. In standard text-conditioned generation, Classifier-Free Guidance (CFG) impacts prompt adherence, suggesting it as a potential control for edit intensity in editing models. However, we show that scaling CFG in these models does not produce a smooth transition between the input and the edited result. We attribute this behavior to the unconditional prediction, which serves as the guidance origin and dominates the generation at low guidance scales, while representing an arbitrary manipulation of the input content. To enable continuous control, we introduce Adaptive-Origin Guidance (AdaOr), a method that adjusts this standard guidance origin with an identity-conditioned adaptive origin, using an identity instruction corresponding to the identity manipulation. By interpolating this identity prediction with the standard unconditional prediction according to the edit strength, we ensure a continuous transition from the input to the edited result. We evaluate our method on image and video editing tasks, demonstrating that it provides smoother and more consistent control compared to current slider-based editing approaches. Our method incorporates an identity instruction into the standard training framework, enabling fine-grained control at inference time without per-edit procedure or reliance on specialized datasets.
- Abstract(参考訳): 拡散に基づく編集モデルは、セマンティックイメージとビデオ操作のための強力なツールとして登場した。
しかし、既存のモデルはテキスト誘導編集の強度を円滑に制御するメカニズムを欠いている。
標準のテキスト条件付き生成では、分類自由誘導(CFG)がプロンプト順守に影響を与え、編集モデルの編集強度を制御できる可能性があることを示唆している。
しかし、これらのモデルにおけるCFGのスケーリングは、入力と編集結果の間のスムーズな遷移を生じさせないことを示す。
この振る舞いは、入力内容の任意の操作を表現しながら、ガイダンスの起点として機能し、低いガイダンススケールで生成を支配する非条件予測に起因する。
アダオル(Adaptive-Origin Guidance, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr, AdaOr)を導入する。
この同一性予測を、編集強度に応じて標準の無条件予測と補間することにより、入力から編集結果への連続的な遷移を確保する。
本手法は画像および映像の編集作業において,現在のスライダベースの編集手法に比べてスムーズで一貫した制御が可能であることを示す。
提案手法は,標準トレーニングフレームワークにアイデンティティ命令を組み込むことで,ユーザ毎の手順や特別なデータセットに依存することなく,推論時のきめ細かい制御を可能にする。
関連論文リスト
- Group Relative Attention Guidance for Image Editing [38.299491082179905]
Group Relative Attention Guidance (GRAG) は、編集命令に対する入力画像に対するモデルの焦点を変調するシンプルで効果的な方法である。
私たちのコードはhttps://www.littlemisfit.com/little-misfit/GRAG-Image-Editing.comでリリースされます。
論文 参考訳(メタデータ) (2025-10-28T17:22:44Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。