論文の概要: Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2509.26376v1
- Date: Tue, 30 Sep 2025 15:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.179133
- Title: Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
- Title(参考訳): Go with your Gut: 自動回帰画像生成のための信頼性のスケーリング
- Authors: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen,
- Abstract要約: テストタイムスケーリング(TTS)は、大規模言語モデルの拡張において顕著な成功を収めているが、NTP(Next-token Prediction)自動回帰(AR)画像生成への応用は、まだほとんど達成されていない。
これはNTPベースのAR画像生成用に特別に設計された最初のTSフレームワークで、早期復号化や補助的な報酬の不要なScalingARを紹介する。
一般的なベンチマークと構成ベンチマークの両方の実験では、ScalingAR(1)はGenEvalで12.5%、TIIF-Benchで15.2%改善し、(2)ベースラインを上回りながら視覚トークンの消費量を62.0%削減し、(3)堅牢性の向上に成功している。
- 参考スコア(独自算出の注目度): 33.35362030320443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、大規模言語モデルの拡張において顕著な成功を収めているが、NTP(Next-token Prediction)自動回帰(AR)画像生成への応用は、まだほとんど達成されていない。
視覚的AR(VAR)の既存のTSアプローチは、部分的復号と外部報酬モデルに依存しているが、中間復号結果の固有の不完全性のため、NTPベースの画像生成には不適である。
このギャップを埋めるために,NTPベースのAR画像生成用に特別に設計された最初のTSフレームワークであるScalingARを導入する。
ScalingARは、視覚トークン生成における新しい信号としてトークンエントロピーを活用し、2つの相補的なスケーリングレベルで動作する。
一 内在的信号と条件的信号とを融合させて校正された信頼状態を流すプロファイルレベル、及び
二 この状態を利用して、低信頼軌道を適応的に終了させ、段階的条件付け強度を動的に調整する政策水準。
一般的なベンチマークと構成ベンチマークの両方の実験では、ScalingAR(1)はGenEvalで12.5%改善し、TIIF-Benchで15.2%改善し、(2)ベースラインを上回りながら視覚トークンの消費を62.0%削減し、(3)難易度では性能低下を26.0%低減することに成功した。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Channel-wise Autoregressive Entropy Models for Learned Image Compression [8.486483425885291]
画像圧縮に対する学習ベースのアプローチでは、コーデックは、速度歪みの目的を最小化するために計算モデルを最適化することによって開発される。
チャネルコンディショニングと遅延残差予測という2つの拡張を導入し,ネットワークアーキテクチャの速度歪み性能を向上した。
改善がもっとも効果的である低ビットレートでは、私たちのモデルはベースラインを最大18%節約し、BPGのような手書きコーデックを最大25%上回ります。
論文 参考訳(メタデータ) (2020-07-17T03:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。