論文の概要: DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2511.21415v1
- Date: Wed, 26 Nov 2025 14:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.132228
- Title: DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models
- Title(参考訳): DiverseVAR: 次世代の視覚自己回帰モデルにおける多様性と品質のバランス
- Authors: Mingue Park, Prin Phunyaphibarn, Phillip Y. Lee, Minhyuk Sung,
- Abstract要約: テスト時にテキスト条件付き視覚自己回帰モデル(VAR)の多様性を高めるフレームワークであるDiverse VARを紹介する。
Varモデルは、画像生成のための拡散とフローモデルに対する強力な競争相手として現れている。
Varモデルは多様性の限界に悩まされ、単純なプロンプトであってもほとんど同じ画像を生成する。
- 参考スコア(独自算出の注目度): 23.12099227251494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DiverseVAR, a framework that enhances the diversity of text-conditioned visual autoregressive models (VAR) at test time without requiring retraining, fine-tuning, or substantial computational overhead. While VAR models have recently emerged as strong competitors to diffusion and flow models for image generation, they suffer from a critical limitation in diversity, often producing nearly identical images even for simple prompts. This issue has largely gone unnoticed amid the predominant focus on image quality. We address this limitation at test time in two stages. First, inspired by diversity enhancement techniques in diffusion models, we propose injecting noise into the text embedding. This introduces a trade-off between diversity and image quality: as diversity increases, the image quality sharply declines. To preserve quality, we propose scale-travel: a novel latent refinement technique inspired by time-travel strategies in diffusion models. Specifically, we use a multi-scale autoencoder to extract coarse-scale tokens that enable us to resume generation at intermediate stages. Extensive experiments show that combining text-embedding noise injection with our scale-travel refinement significantly enhances diversity while minimizing image-quality degradation, achieving a new Pareto frontier in the diversity-quality trade-off.
- Abstract(参考訳): テスト時のテキスト条件付き視覚自己回帰モデル(VAR)の多様性を高めるフレームワークであるDiverseVARを導入する。
VARモデルは、画像生成のための拡散とフローモデルの強力な競合相手として最近登場したが、それらは多様性の限界に悩まされており、単純なプロンプトであってもほぼ同じ画像を生成することが多い。
この問題は、画像の品質に重点が置かれている中で、ほとんど気付かれていない。
この制限はテスト時に2つの段階で対処します。
まず,拡散モデルにおける多様性向上技術に着想を得て,テキスト埋め込みにノイズを注入する手法を提案する。
これは、多様性と画像品質のトレードオフをもたらす: 多様性が増加するにつれて、画像品質は急激に低下する。
そこで我々は,拡散モデルにおける時間トラバー戦略に触発された新しい潜時改善手法であるスケールトラバーを提案する。
具体的には、マルチスケールオートエンコーダを用いて、中間段階で生成を再開する粗いスケールトークンを抽出する。
画像品質の劣化を最小限に抑えつつ,テキスト埋め込み型ノイズ注入とスケールトラベル改善を併用することで,多様性のトレードオフにおいて新たなパレートフロンティアの実現が期待できる。
関連論文リスト
- Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Diversity Has Always Been There in Your Visual Autoregressive Models [78.27363151940996]
Visual Autoregressive (VAR)モデルは、最近、革新的な次世代の予測パラダイムに対して大きな注目を集めている。
それらの効率にもかかわらず、VARモデルは、数段階の蒸留拡散モデルで観察されたような多様性の崩壊に悩まされることが多い。
本稿では、VARモデルの生成多様性を、追加のトレーニングを必要とせずに復元する、シンプルで効果的なアプローチであるDiverse VARを紹介する。
論文 参考訳(メタデータ) (2025-11-21T09:24:09Z) - ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models [2.712399554918533]
人間のフィードバックに基づいてトレーニングされたモデルを用いた逆向きの微調整は、アライメントを改善するが、しばしば多様性を損なう。
生成過程の後半にのみ報酬調整拡散モデルを適用する新しいサンプリング戦略であるテキスト組換え生成を導入する。
第2に,実画像のトレーニングによる画質の低下を最小限に抑えながら,画像の多様性を向上させる微調整手法である textitImageReFL を提案する。
論文 参考訳(メタデータ) (2025-05-28T16:45:07Z) - SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation [0.6554326244334868]
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
論文 参考訳(メタデータ) (2025-05-17T03:51:18Z) - HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation [32.16985870309231]
少ないショット画像生成は、そのクラスでいくつか例を挙げると、目に見えないクラスに対して、多彩で高品質な画像を生成することを目的としている。
本稿では,双曲空間における画像間の階層的関係を抽出する新しい手法として,双曲拡散オートエンコーダ(HypDAE)を提案する。
論文 参考訳(メタデータ) (2024-11-27T00:45:51Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。