論文の概要: DiverseAR: Boosting Diversity in Bitwise Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2512.02931v1
- Date: Tue, 02 Dec 2025 16:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.972437
- Title: DiverseAR: Boosting Diversity in Bitwise Autoregressive Image Generation
- Title(参考訳): DiverseAR: ビットワイズ自動回帰画像生成における多様性向上
- Authors: Ying Yang, Zhengyao Lv, Tianlin Pan, Haofan Wang, Binxin Yang, Hubery Yin, Chen Li, Chenyang Si,
- Abstract要約: 視覚的品質を犠牲にすることなく、画像の多様性を高める、原則的で効果的な方法であるDiverseARを紹介する。
具体的には、サンプリング中のバイナリ出力分布のシャープネスを動的に調整する適応ロジット分布スケーリング機構を導入する。
分散平滑化による電位忠実度損失を軽減するため,低信頼トークンのサンプリングを回避するエネルギーベース生成経路探索アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.400053095939402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the underexplored challenge of sample diversity in autoregressive (AR) generative models with bitwise visual tokenizers. We first analyze the factors that limit diversity in bitwise AR models and identify two key issues: (1) the binary classification nature of bitwise modeling, which restricts the prediction space, and (2) the overly sharp logits distribution, which causes sampling collapse and reduces diversity. Building on these insights, we propose DiverseAR, a principled and effective method that enhances image diversity without sacrificing visual quality. Specifically, we introduce an adaptive logits distribution scaling mechanism that dynamically adjusts the sharpness of the binary output distribution during sampling, resulting in smoother predictions and greater diversity. To mitigate potential fidelity loss caused by distribution smoothing, we further develop an energy-based generation path search algorithm that avoids sampling low-confidence tokens, thereby preserving high visual quality. Extensive experiments demonstrate that DiverseAR substantially improves sample diversity in bitwise autoregressive image generation.
- Abstract(参考訳): 本稿では,ビットワイド視覚トークンを用いた自己回帰(AR)生成モデルにおけるサンプル多様性の未解明課題について検討する。
まず、ビットワイズARモデルの多様性を制限する要因を分析し、(1)予測空間を制限するビットワイズモデリングのバイナリ分類特性、(2)サンプリング崩壊と多様性の低下を引き起こす過度に鋭いロジット分布の2つの主要な課題を同定する。
これらの知見に基づいて、視覚的品質を犠牲にすることなく、画像の多様性を高める原則的で効果的な方法であるDiverseARを提案する。
具体的には、サンプリング中のバイナリ出力分布のシャープネスを動的に調整する適応ロジット分布スケーリング機構を導入し、よりスムーズな予測と多様性の向上を実現した。
分散平滑化による電位忠実度損失を軽減するため,低信頼トークンのサンプリングを回避し,高い視覚的品質を維持するエネルギーベースの生成経路探索アルゴリズムを開発した。
大規模な実験により、DiverseARはビットワイド自己回帰画像生成においてサンプルの多様性を大幅に改善することが示された。
関連論文リスト
- DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models [23.12099227251494]
テスト時にテキスト条件付き視覚自己回帰モデル(VAR)の多様性を高めるフレームワークであるDiverse VARを紹介する。
Varモデルは、画像生成のための拡散とフローモデルに対する強力な競争相手として現れている。
Varモデルは多様性の限界に悩まされ、単純なプロンプトであってもほとんど同じ画像を生成する。
論文 参考訳(メタデータ) (2025-11-26T14:06:52Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Diversity Has Always Been There in Your Visual Autoregressive Models [78.27363151940996]
Visual Autoregressive (VAR)モデルは、最近、革新的な次世代の予測パラダイムに対して大きな注目を集めている。
それらの効率にもかかわらず、VARモデルは、数段階の蒸留拡散モデルで観察されたような多様性の崩壊に悩まされることが多い。
本稿では、VARモデルの生成多様性を、追加のトレーニングを必要とせずに復元する、シンプルで効果的なアプローチであるDiverse VARを紹介する。
論文 参考訳(メタデータ) (2025-11-21T09:24:09Z) - $\bf{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection [85.9202830503973]
視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。
本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:02:27Z) - Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文 参考訳(メタデータ) (2025-10-04T13:51:32Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - A Closer Look at Few-shot Image Generation [38.83570296616384]
訓練済みのGANを小さなターゲットデータで転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。
この数ショットの画像生成に対処するいくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が不足している。
適応中に既存の手法を解析するためのフレームワークを提案する。
第2のコントリビューションは、ソースドメインのリッチなマルチレベル多様性情報をターゲットドメインジェネレータに保持するために、相互情報(MI)を適用することを提案する。
論文 参考訳(メタデータ) (2022-05-08T07:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。