論文の概要: Inference-Time Scaling for Visual AutoRegressive modeling by Searching Representative Samples
- arxiv url: http://arxiv.org/abs/2601.07293v1
- Date: Mon, 12 Jan 2026 08:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.274834
- Title: Inference-Time Scaling for Visual AutoRegressive modeling by Searching Representative Samples
- Title(参考訳): 代表サンプル探索による視覚的自己回帰モデリングのための推論時間スケーリング
- Authors: Weidong Tang, Xinyan Wan, Siyu Li, Xiumei Wang,
- Abstract要約: VAR-Scalingは視覚自己回帰モデリング(VQ)における推論時間スケーリングのための最初の一般的なフレームワークである。
サンプリング空間をカーネル密度推定 (KDE) を用いて準連続特徴空間にマッピングし, 高密度サンプルは安定で高品質な解を近似する。
クラス条件およびテキスト・ツー・イメージ評価の実験は、推論プロセスの大幅な改善を示す。
- 参考スコア(独自算出の注目度): 8.364449021192016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While inference-time scaling has significantly enhanced generative quality in large language and diffusion models, its application to vector-quantized (VQ) visual autoregressive modeling (VAR) remains unexplored. We introduce VAR-Scaling, the first general framework for inference-time scaling in VAR, addressing the critical challenge of discrete latent spaces that prohibit continuous path search. We find that VAR scales exhibit two distinct pattern types: general patterns and specific patterns, where later-stage specific patterns conditionally optimize early-stage general patterns. To overcome the discrete latent space barrier in VQ models, we map sampling spaces to quasi-continuous feature spaces via kernel density estimation (KDE), where high-density samples approximate stable, high-quality solutions. This transformation enables effective navigation of sampling distributions. We propose a density-adaptive hybrid sampling strategy: Top-k sampling focuses on high-density regions to preserve quality near distribution modes, while Random-k sampling explores low-density areas to maintain diversity and prevent premature convergence. Consequently, VAR-Scaling optimizes sample fidelity at critical scales to enhance output quality. Experiments in class-conditional and text-to-image evaluations demonstrate significant improvements in inference process. The code is available at https://github.com/WD7ang/VAR-Scaling.
- Abstract(参考訳): 推論時間スケーリングは大規模言語や拡散モデルにおいて生成品質を著しく向上させたが、ベクトル量子化(VQ)視覚自己回帰モデリング(VAR)への応用は未検討のままである。
VARにおける推論時間スケーリングのための最初の一般的なフレームワークであるVAR-Scalingを導入し、連続経路探索を禁止している離散潜在空間の致命的な課題に対処する。
VARスケールは、一般的なパターンと特定のパターンの2つの異なるパターン型を示し、そこでは、後期的な特定のパターンが初期的な一般的なパターンを条件付きで最適化する。
VQモデルにおける離散遅延空間障壁を克服するために、高密度サンプルが安定で高品質な解を近似するカーネル密度推定(KDE)を用いてサンプリング空間を準連続特徴空間にマッピングする。
この変換はサンプリング分布の効果的なナビゲーションを可能にする。
トップkサンプリングは分布モード近傍の品質を維持するために高密度領域に着目し,ランダムkサンプリングは低密度領域を探索し,多様性の維持と早期収束を防止する。
したがって、VAR-Scalingは、出力品質を高めるために、臨界スケールでのサンプル忠実度を最適化する。
クラス条件およびテキスト・ツー・イメージ評価の実験は、推論プロセスの大幅な改善を示す。
コードはhttps://github.com/WD7ang/VAR-Scaling.comで公開されている。
関連論文リスト
- Understanding Sampler Stochasticity in Training Diffusion Models for RLHF [11.537564997052606]
本稿では,報酬ギャップを理論的に特徴づけ,一般拡散モデルに対して非空境界を与える。
実験では,テキスト・ツー・イメージ・モデルによる大規模な実験により,報酬ギャップがトレーニングよりも一定に狭まることが確認された。
論文 参考訳(メタデータ) (2025-10-12T19:08:38Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations [17.357140159249496]
本稿では,局所的な急激な最大値の検出と回避を適応的に行う新しいサンプリング戦略を提案する。
Ctrl-Zサンプリングは生成品質を著しく向上するが,元のNFEの7.72倍程度しか必要としないことを示す。
論文 参考訳(メタデータ) (2025-06-25T10:01:00Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。