論文の概要: Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
- arxiv url: http://arxiv.org/abs/2510.16751v2
- Date: Fri, 24 Oct 2025 20:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.573654
- Title: Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
- Title(参考訳): 推論時間スケーリングによる視覚自己回帰モデルと拡散モデル
- Authors: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos,
- Abstract要約: 視覚自己回帰モデルの離散的かつ逐次的な性質は、画像生成を効果的に検索できることを示す。
ビームサーチはテキスト・画像生成を大幅に改善し、2Bパラメータ自己回帰モデルがベンチマーク間で12Bパラメータ拡散モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 3.558452956820138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.
- Abstract(参考訳): 検索による推論時間のスケーリングは大規模言語モデルに革命をもたらしたが、これらのゲインを画像生成に翻訳することは困難であることが証明された。
連続拡散モデルに探索戦略を適用しようとする最近の試みは限られた利点を示し、単純なランダムサンプリングがしばしば最適である。
視覚自己回帰モデルの離散的かつ逐次的な性質は、画像生成に有効な探索を可能にすることを実証する。
ビームサーチはテキスト・画像生成を大幅に改善し、2Bパラメータ自己回帰モデルがベンチマーク間で12Bパラメータ拡散モデルより優れていることを示す。
この利点は, 早期刈り込みと計算再利用が可能な離散トークン空間から得られるものであり, 検証器解析では, 速度と推論能力のトレードオフが強調されている。
これらの結果から,モデルアーキテクチャは単なるスケールではなく,視覚生成における推論時間最適化に重要であることが示唆された。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。