Fugu-MT 論文翻訳(概要): Rethinking Structure Preservation in Text-Guided Image Editing with Visual Autoregressive Models

論文の概要: Rethinking Structure Preservation in Text-Guided Image Editing with Visual Autoregressive Models

arxiv url: http://arxiv.org/abs/2603.28367v1
Date: Mon, 30 Mar 2026 12:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.39245
Title: Rethinking Structure Preservation in Text-Guided Image Editing with Visual Autoregressive Models
Title（参考訳）: 視覚的自己回帰モデルを用いたテキストガイド画像編集における構造保存の再考
Authors: Tao Xia, Jiawei Liu, Yukun Zhang, Ting Liu, Wei Wang, Lei Zhang,
Abstract要約: 本稿では,視覚自己回帰(VAR)モデルにおける中間特徴分布の解析に根ざした,新たなテキスト誘導画像編集フレームワークを提案する。まず、編集可能な領域を洗練し、編集精度と背景保存のバランスをとる、粗いトークンの局所化戦略を導入する。第2に、VARモデルの中間表現を分析し、構造に関連した特徴を同定し、単純で効果的な特徴注入機構を設計する。第3に,拡張学習に基づく適応的特徴注入方式を開発し,スケール比と層比を自動で学習し,編集精度と構造保存を協調的に最適化する。
参考スコア（独自算出の注目度）: 18.626758540572894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual autoregressive (VAR) models have recently emerged as a promising family of generative models, enabling a wide range of downstream vision tasks such as text-guided image editing. By shifting the editing paradigm from noise manipulation in diffusion-based methods to token-level operations, VAR-based approaches achieve better background preservation and significantly faster inference. However, existing VAR-based editing methods still face two key challenges: accurately localizing editable tokens and maintaining structural consistency in the edited results. In this work, we propose a novel text-guided image editing framework rooted in an analysis of intermediate feature distributions within VAR models. First, we introduce a coarse-to-fine token localization strategy that can refine editable regions, balancing editing fidelity and background preservation. Second, we analyze the intermediate representations of VAR models and identify structure-related features, by which we design a simple yet effective feature injection mechanism to enhance structural consistency between the edited and source images. Third, we develop a reinforcement learning-based adaptive feature injection scheme that automatically learns scale- and layer-specific injection ratios to jointly optimize editing fidelity and structure preservation. Extensive experiments demonstrate that our method achieves superior structural consistency and editing quality compared with state-of-the-art approaches, across both local and global editing scenarios.
Abstract（参考訳）: VAR(Visual Autoregressive)モデルは、最近、テキスト誘導画像編集などの幅広い下流視覚タスクを可能にする、生成モデルの有望なファミリーとして登場した。拡散に基づく手法のノイズ操作からトークンレベルの操作への編集パラダイムのシフトにより、VARベースのアプローチはより優れたバックグラウンド保存とはるかに高速な推論を実現する。しかしながら、既存のVARベースの編集方法は、編集可能なトークンの正確なローカライズと、編集結果における構造的一貫性の維持という、2つの大きな課題に直面している。本稿では,VARモデルにおける中間特徴分布の解析に根ざした,新しいテキスト誘導画像編集フレームワークを提案する。まず、編集可能な領域を洗練し、編集精度と背景保存のバランスをとる、粗いトークンの局所化戦略を導入する。第2に、VARモデルの中間表現を分析し、構造関連の特徴を同定し、編集画像とソース画像間の構造整合性を高めるため、単純で効果的な特徴注入機構を設計する。第3に,拡張学習に基づく適応的特徴注入方式を開発し,スケール比と層比を自動で学習し,編集精度と構造保存を協調的に最適化する。局所的およびグローバルな編集シナリオにおいて,本手法が最先端の手法に比べて優れた構造整合性と編集品質を実現することを示す。

関連論文リスト

Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss [32.26030534230571]
入力画像と編集画像の間の構造的差異を定量化する新しい構造保存損失(SPL)を提案する。我々は,SPLを拡散モデルの生成過程に直接統合し,構造的忠実性を確保する。実験により、SPLは構造的忠実性を高め、潜伏拡散に基づく画像編集における最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2026-01-23T11:06:51Z)
LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。 LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-08-05T06:45:04Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing [60.102602955261084]
Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
論文参考訳（メタデータ） (2025-04-14T17:25:19Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-21T02:14:03Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。