論文の概要: Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing
- arxiv url: http://arxiv.org/abs/2504.10434v1
- Date: Mon, 14 Apr 2025 17:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:17.361654
- Title: Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing
- Title(参考訳): Anchor Token Matching: 無訓練AR画像編集のための構造ロック
- Authors: Taihang Hu, Linxuan Li, Kai Wang, Yaxing Wang, Jian Yang, Ming-Ming Cheng,
- Abstract要約: Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。
本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。
我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
- 参考スコア(独自算出の注目度): 60.102602955261084
- License:
- Abstract: Text-to-image generation has seen groundbreaking advancements with diffusion models, enabling high-fidelity synthesis and precise image editing through cross-attention manipulation. Recently, autoregressive (AR) models have re-emerged as powerful alternatives, leveraging next-token generation to match diffusion models. However, existing editing techniques designed for diffusion models fail to translate directly to AR models due to fundamental differences in structural control. Specifically, AR models suffer from spatial poverty of attention maps and sequential accumulation of structural errors during image editing, which disrupt object layouts and global consistency. In this work, we introduce Implicit Structure Locking (ISLock), the first training-free editing strategy for AR visual models. Rather than relying on explicit attention manipulation or fine-tuning, ISLock preserves structural blueprints by dynamically aligning self-attention patterns with reference images through the Anchor Token Matching (ATM) protocol. By implicitly enforcing structural consistency in latent space, our method ISLock enables structure-aware editing while maintaining generative autonomy. Extensive experiments demonstrate that ISLock achieves high-quality, structure-consistent edits without additional training and is superior or comparable to conventional editing techniques. Our findings pioneer the way for efficient and flexible AR-based image editing, further bridging the performance gap between diffusion and autoregressive generative models. The code will be publicly available at https://github.com/hutaiHang/ATM
- Abstract(参考訳): テキスト・ツー・イメージ生成は拡散モデルによって画期的な進歩を経験し、高忠実性合成と横断的な操作による正確な画像編集を可能にした。
近年, 自己回帰モデル (AR) は, 拡散モデルに適合する次世代を生かし, 強力な代替品として再登場している。
しかし、拡散モデル用に設計された既存の編集技術は、構造制御の根本的な違いのため、ARモデルに直接変換することができない。
特に、ARモデルは、注意マップの空間的貧困と、画像編集中の構造的エラーの逐次蓄積に悩まされ、オブジェクトのレイアウトやグローバルな一貫性を損なう。
本稿では,ARビジュアルモデルのためのトレーニング不要な編集戦略であるImplicit Structure Locking (ISLock)を紹介する。
ISLockは、明示的な注意操作や微調整に頼るのではなく、Anchor Token Matching (ATM)プロトコルを通じて、自己注意パターンと参照画像とを動的に整列することで、構造的青写真を保存する。
潜在空間における構造的一貫性を暗黙的に強制することにより、我々の方法であるISLockは、生成自律性を維持しながら構造認識編集を可能にする。
広範囲な実験により、ISLockは、追加のトレーニングなしで高品質で構造に一貫性のある編集を実現し、従来の編集技術に匹敵する、あるいは同等であることが示された。
我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
コードはhttps://github.com/hutaiHang/ATMで公開される。
関連論文リスト
- EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。