論文の概要: Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2604.14591v1
- Date: Thu, 16 Apr 2026 03:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.712116
- Title: Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models
- Title(参考訳): 視覚的自己回帰モデルにおけるマスケッドロジットヌードを用いたプロンプトガイド画像編集
- Authors: Amir El-Ghoussani, Marc Hölle, Gustavo Carneiro, Vasileios Belagiannis,
- Abstract要約: 本稿では、ソース画像トークンマップを用いて誘導手順を導入するMasked Logit Nudgingを提案する。
具体的には、VARエンコーディングを用いて、固定されたソースエンコーディングをロジットに変換し、モデルが予測するロジットをターゲットに向けてヌードする。
提案手法は,PIEベンチマークの512pxと1024pxで最高の画像編集性能を実現する。
- 参考スコア(独自算出の注目度): 16.396959030145076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of prompt-guided image editing in visual autoregressive models. Given a source image and a target text prompt, we aim to modify the source image according to the target prompt, while preserving all regions which are unrelated to the requested edit. To this end, we present Masked Logit Nudging, which uses the source image token maps to introduce a guidance step that aligns the model's predictions under the target prompt with these source token maps. Specifically, we convert the fixed source encodings into logits using the VAR encoding, nudging the model's predicted logits towards the targets along a semantic trajectory defined by the source-target prompts. Edits are applied only within spatial masks obtained through a dedicated masking scheme that leverages cross-attention differences between the source and edited prompts. Then, we introduce a refinement to correct quantization errors and improve reconstruction quality. Our approach achieves the best image editing performance on the PIE benchmark at 512px and 1024px resolutions. Beyond editing, our method delivers faithful reconstructions and outperforms previous methods on COCO at 512px and OpenImages at 1024px. Overall, our method outperforms VAR-related approaches and achieves comparable or even better performance than diffusion models, while being much faster. Code is available at 'https://github.com/AmirMaEl/MLN'.
- Abstract(参考訳): 本稿では,視覚的自己回帰モデルにおけるプロンプト誘導画像編集の問題に対処する。
ソース画像とターゲットテキストのプロンプトが与えられた場合、要求された編集とは無関係なすべての領域を保存しながら、ターゲットプロンプトに従ってソースイメージを変更することを目的としている。
この目的のために,提案するMasked Logit Nudgingは,ソース画像トークンマップを用いて,ターゲットプロンプトの下のモデル予測をこれらのソーストークンマップと整合させるガイダンスステップを導入する。
具体的には、VARエンコーディングを用いて、固定されたソースエンコーディングをロジットに変換し、ソースターゲットプロンプトによって定義されたセマンティックトラジェクトリに沿って、モデルの予測ロジットをターゲットに向けてヌードする。
編集は、ソースと編集プロンプト間の相互アテンションの違いを利用する専用のマスキングスキームによって得られる空間マスク内でのみ適用される。
そして,量子化誤差を補正し,再現性を向上させるための改良を導入する。
提案手法は,PIEベンチマークの512pxと1024pxで最高の画像編集性能を実現する。
編集以外では,COCOでは512px,OpenImageでは1024pxで従来手法より優れていた再現性を実現している。
全体として,本手法はVAR関連手法より優れ,拡散モデルと同等あるいはそれ以上の性能を達成できるが,より高速である。
コードは 'https://github.com/AmirMaEl/MLN' で入手できる。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。