論文の概要: Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy
- arxiv url: http://arxiv.org/abs/2510.09012v1
- Date: Fri, 10 Oct 2025 05:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.187229
- Title: Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy
- Title(参考訳): 高速かつ高速な自己回帰画像生成を目指して:エントロピーの視点から
- Authors: Xiaoxiao Ma, Feng Zhao, Pengyang Ling, Haibo Qiu, Zhixiang Wei, Hu Yu, Jie Huang, Zhixiong Zeng, Lin Ma,
- Abstract要約: 本研究は,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討する。
画像トークンは、テキストトークンとは異なり、低い情報密度と一様でない空間分布を示す。
本稿では,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
- 参考スコア(独自算出の注目度): 23.573364375818553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we first revisit the sampling issues in current autoregressive (AR) image generation models and identify that image tokens, unlike text tokens, exhibit lower information density and non-uniform spatial distribution. Accordingly, we present an entropy-informed decoding strategy that facilitates higher autoregressive generation quality with faster synthesis speed. Specifically, the proposed method introduces two main innovations: 1) dynamic temperature control guided by spatial entropy of token distributions, enhancing the balance between content diversity, alignment accuracy, and structural coherence in both mask-based and scale-wise models, without extra computational overhead, and 2) entropy-aware acceptance rules in speculative decoding, achieving near-lossless generation at about 85\% of the inference cost of conventional acceleration methods. Extensive experiments across multiple benchmarks using diverse AR image generation models demonstrate the effectiveness and generalizability of our approach in enhancing both generation quality and sampling speed.
- Abstract(参考訳): 本研究ではまず,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討し,テキストトークンとは異なり,画像トークンが低い情報密度と非一様空間分布を示すことを確認した。
そこで我々は,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
具体的には,提案手法は2つの大きな革新をもたらす。
1) トークン分布の空間エントロピーによる動的温度制御、コンテントの多様性、アライメント精度、マスクベースモデルとスケールワイドモデルの両方における構造的コヒーレンスの向上。
2) 投機的復号法におけるエントロピーを考慮した受理規則は, 従来の加速法の推論コストの約85%で, ほぼロスレス生成を実現している。
多様なAR画像生成モデルを用いた複数のベンチマークにわたる大規模な実験は、生成品質とサンプリング速度の両面において、我々のアプローチの有効性と一般化性を実証している。
関連論文リスト
- CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation [9.628074306577851]
現在の条件付き自己回帰画像生成手法は有望な結果を示しているが、実際の教師なし画像翻訳領域では、その可能性はほとんど解明されていない。
臨界制限は、伝統的なベクトル量子化に基づくフレームワークに固有の離散量子化に由来する。
我々は,連続確率混合プロセスとしてコードブックの選択を再構成する新しい手法であるSoftmax Relaxed Quantizationを提案する。
論文 参考訳(メタデータ) (2025-06-29T17:43:04Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、高速サンプリングによる高忠実度生成のための効率的な残留ベクトル量子化に基づく生成モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。