論文の概要: Learning to Expand Images for Efficient Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2511.15499v1
- Date: Wed, 19 Nov 2025 14:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.855383
- Title: Learning to Expand Images for Efficient Visual Autoregressive Modeling
- Title(参考訳): 効率的な視覚自己回帰モデリングのための画像の拡張学習
- Authors: Ruiqing Yang, Kaixin Zhang, Zheng Zhang, Shan You, Tao Huang,
- Abstract要約: 本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
- 参考スコア(独自算出の注目度): 26.400433163290586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models have recently shown great promise in visual generation by leveraging discrete token sequences akin to language modeling. However, existing approaches often suffer from inefficiency, either due to token-by-token decoding or the complexity of multi-scale representations. In this work, we introduce Expanding Autoregressive Representation (EAR), a novel generation paradigm that emulates the human visual system's center-outward perception pattern. EAR unfolds image tokens in a spiral order from the center and progressively expands outward, preserving spatial continuity and enabling efficient parallel decoding. To further enhance flexibility and speed, we propose a length-adaptive decoding strategy that dynamically adjusts the number of tokens predicted at each step. This biologically inspired design not only reduces computational cost but also improves generation quality by aligning the generation order with perceptual relevance. Extensive experiments on ImageNet demonstrate that EAR achieves state-of-the-art trade-offs between fidelity and efficiency on single-scale autoregressive models, setting a new direction for scalable and cognitively aligned autoregressive image generation.
- Abstract(参考訳): 自己回帰モデルは、言語モデリングに似た離散トークンシーケンスを活用することで、視覚生成において大きな可能性を秘めている。
しかし、既存のアプローチはトークン・バイ・トークンの復号化やマルチスケール表現の複雑さなど、効率の悪さに悩まされることが多い。
本研究では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムであるEAR(Expanding Autoregressive Representation)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
柔軟性と速度をさらに向上するため,各ステップで予測されるトークン数を動的に調整する長適応復号方式を提案する。
この生物学的にインスパイアされた設計は、計算コストを削減するだけでなく、生成順序を知覚的関連性に合わせることによって生成品質を向上させる。
ImageNetでの大規模な実験により、EARは単一スケールの自己回帰モデルにおける忠実さと効率の最先端のトレードオフを達成し、スケーラブルで認知的に整合した自己回帰画像生成の新しい方向性を定めている。
関連論文リスト
- BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Dynamic Token Reduction during Generation for Vision Language Models [11.376359442815986]
視覚言語モデル(VLM)に適した動的プルーニング戦略を導入する。
提案手法は,注意分布に基づく刈り取り率の柔軟な調整を可能にする。
実験結果から,本手法は計算要求を低減させるだけでなく,応答の質も維持することが示された。
論文 参考訳(メタデータ) (2025-01-24T03:20:37Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。