論文の概要: IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction
- arxiv url: http://arxiv.org/abs/2510.06928v1
- Date: Wed, 08 Oct 2025 12:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.474891
- Title: IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction
- Title(参考訳): IAR2:Semantic-Detail Associated Token Predictionによる自己回帰視覚生成の改善
- Authors: Ran Yi, Teng Hu, Zihan Su, Lizhuang Ma,
- Abstract要約: IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
- 参考スコア(独自算出の注目度): 77.06211178777939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models have emerged as a powerful paradigm for visual content creation, but often overlook the intrinsic structural properties of visual data. Our prior work, IAR, initiated a direction to address this by reorganizing the visual codebook based on embedding similarity, thereby improving generation robustness. However, it is constrained by the rigidity of pre-trained codebooks and the inaccuracies of hard, uniform clustering. To overcome these limitations, we propose IAR2, an advanced autoregressive framework that enables a hierarchical semantic-detail synthesis process. At the core of IAR2 is a novel Semantic-Detail Associated Dual Codebook, which decouples image representations into a semantic codebook for global semantic information and a detail codebook for fine-grained refinements. It expands the quantization capacity from a linear to a polynomial scale, significantly enhancing expressiveness. To accommodate this dual representation, we propose a Semantic-Detail Autoregressive Prediction scheme coupled with a Local-Context Enhanced Autoregressive Head, which performs hierarchical prediction-first the semantic token, then the detail token-while leveraging a local context window to enhance spatial coherence. Furthermore, for conditional generation, we introduce a Progressive Attention-Guided Adaptive CFG mechanism that dynamically modulates the guidance scale for each token based on its relevance to the condition and its temporal position in the generation sequence, improving conditional alignment without sacrificing realism. Extensive experiments demonstrate that IAR2 sets a new state-of-the-art for autoregressive image generation, achieving a FID of 1.50 on ImageNet. Our model not only surpasses previous methods in performance but also demonstrates superior computational efficiency, highlighting the effectiveness of our structured, coarse-to-fine generation strategy.
- Abstract(参考訳): 自己回帰モデルは視覚コンテンツ作成の強力なパラダイムとして現れてきたが、しばしば視覚データの本質的な構造的特性を見落としている。
我々の以前の研究であるIARは、埋め込み類似性に基づいて視覚コードブックを再編成し、生成の堅牢性を改善することで、この問題に対処する方向を開始した。
しかし、事前訓練されたコードブックの剛性や、ハードで均一なクラスタリングの不正確さに制約されている。
これらの制限を克服するために,階層的な意味・詳細合成プロセスを可能にする高度な自己回帰フレームワークであるIAR2を提案する。
IAR2の中核にはセマンティック・ディーテール関連デュアルコードブックがあり、これは画像表現を大域的意味情報のためのセマンティックコードブックと細かな精細化のための詳細コードブックに分解する。
量子化能力は線形から多項式スケールに拡張され、表現性を大幅に向上する。
この双対表現に対応するために、局所文脈拡張自己回帰ヘッドと組み合わせたセマンティック・ディーテール自己回帰予測スキームを提案する。
さらに、条件生成のために、各トークンの誘導スケールを動的に変調するプログレッシブアテンションガイド適応CFG機構を導入し、その状態と生成シーケンスの時間的位置との関係を考慮し、現実性を犠牲にすることなく条件アライメントを改善する。
大規模な実験では、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNetで1.50のFIDを達成することが示されている。
提案手法は,従来の手法に勝るだけでなく,計算効率も向上し,構造化された粗大な生成戦略の有効性を浮き彫りにしている。
関連論文リスト
- EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。
本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文 参考訳(メタデータ) (2025-08-02T06:17:23Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation [8.624395048491275]
適応動的スパース注意(adaptive Dynamic Sparse Attention, ADSA)と呼ばれる新しい学習自由コンテキスト最適化手法を提案する。
ADSAは、局所的なテクスチャの整合性を維持するのに欠かせない歴史的トークンと、グローバルなセマンティック・コヒーレンスを確保するのに欠かせないトークンを特定し、効率的に注意を合理化する。
また、ADSAに適した動的KV-cache更新機構を導入し、推論中のGPUメモリ消費量を約50%削減する。
論文 参考訳(メタデータ) (2025-06-23T01:27:06Z) - GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。