論文の概要: Visual Autoregressive Modeling for Instruction-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2508.15772v1
- Date: Thu, 21 Aug 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.445426
- Title: Visual Autoregressive Modeling for Instruction-Guided Image Editing
- Title(参考訳): インストラクションガイドによる画像編集のための視覚自己回帰モデリング
- Authors: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei,
- Abstract要約: 画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
- 参考スコア(独自算出の注目度): 97.04821896251681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have brought remarkable visual fidelity to instruction-guided image editing. However, their global denoising process inherently entangles the edited region with the entire image context, leading to unintended spurious modifications and compromised adherence to editing instructions. In contrast, autoregressive models offer a distinct paradigm by formulating image synthesis as a sequential process over discrete visual tokens. Their causal and compositional mechanism naturally circumvents the adherence challenges of diffusion-based methods. In this paper, we present VAREdit, a visual autoregressive (VAR) framework that reframes image editing as a next-scale prediction problem. Conditioned on source image features and text instructions, VAREdit generates multi-scale target features to achieve precise edits. A core challenge in this paradigm is how to effectively condition the source image tokens. We observe that finest-scale source features cannot effectively guide the prediction of coarser target features. To bridge this gap, we introduce a Scale-Aligned Reference (SAR) module, which injects scale-matched conditioning information into the first self-attention layer. VAREdit demonstrates significant advancements in both editing adherence and efficiency. On standard benchmarks, it outperforms leading diffusion-based methods by 30\%+ higher GPT-Balance score. Moreover, it completes a $512\times512$ editing in 1.2 seconds, making it 2.2$\times$ faster than the similarly sized UltraEdit. The models are available at https://github.com/HiDream-ai/VAREdit.
- Abstract(参考訳): 拡散モデルの最近の進歩は、命令誘導画像編集に顕著な視覚的忠実性をもたらしている。
しかし、それらのグローバルな記述プロセスは本質的には、編集された領域を画像のコンテキスト全体と結び付け、意図しない急激な修正と編集命令の遵守を損なう。
対照的に自己回帰モデルは、画像合成を離散的な視覚トークン上の逐次過程として定式化することによって、異なるパラダイムを提供する。
その因果的および構成的メカニズムは、拡散に基づく手法の定着の難しさを自然に回避する。
本稿では,視覚的自己回帰(VAR)フレームワークであるVAREditについて述べる。
ソース画像の特徴とテキスト命令に基づいて、VAREditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
このパラダイムの中核的な課題は、ソース画像トークンを効果的に条件付けする方法である。
我々は、最も優れた音源特徴は、粗い対象特徴の予測を効果的に導くことができないことを観察する。
このギャップを埋めるために、第1の自己注意層にスケール整合条件情報を注入するスケール整合参照(SAR)モジュールを導入する。
VAREditは、編集の順守と効率の両面で大きな進歩を示している。
標準ベンチマークでは、リード拡散ベースの手法を30 %以上高い GPT-Balance スコアで上回っている。
さらに、1.2秒で512\times512$編集を完了し、同じサイズのUltraEditよりも2.2$\times$高速になった。
モデルはhttps://github.com/HiDream-ai/VAREditで入手できる。
関連論文リスト
- Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing [60.102602955261084]
Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。
本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。
我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
論文 参考訳(メタデータ) (2025-04-14T17:25:19Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。