論文の概要: Tiny Inference-Time Scaling with Latent Verifiers
- arxiv url: http://arxiv.org/abs/2603.22492v2
- Date: Wed, 25 Mar 2026 08:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.990217
- Title: Tiny Inference-Time Scaling with Latent Verifiers
- Title(参考訳): 遅延検証器を用いたTiny Inference-Time Scaling
- Authors: Davide Bucciarelli, Evelyn Turri, Lorenzo Baraldi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: Verifier on Hidden States (VHS) は、Diffusion Transformer (DiT) の中間的な隠れ表現で動作する。
VHSは、画素空間に復号することなくジェネレータ機能を解析することにより、候補毎の検証コストを削減できる。
VHSは同じ推論時予算でGenEvalを+2.7%改善する。
- 参考スコア(独自算出の注目度): 56.696619768584675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time scaling has emerged as an effective way to improve generative models at test time by using a verifier to score and select candidate outputs. A common choice is to employ Multimodal Large Language Models (MLLMs) as verifiers, which can improve performance but introduce substantial inference-time cost. Indeed, diffusion pipelines operate in an autoencoder latent space to reduce computation, yet MLLM verifiers still require decoding candidates to pixel space and re-encoding them into the visual embedding space, leading to redundant and costly operations. In this work, we propose Verifier on Hidden States (VHS), a verifier that operates directly on intermediate hidden representations of Diffusion Transformer (DiT) single-step generators. VHS analyzes generator features without decoding to pixel space, thereby reducing the per-candidate verification cost while improving or matching the performance of MLLM-based competitors. We show that, under tiny inference budgets with only a small number of candidates per prompt, VHS enables more efficient inference-time scaling reducing joint generation-and-verification time by 63.3%, compute FLOPs by 51% and VRAM usage by 14.5% with respect to a standard MLLM verifier, achieving a +2.7% improvement on GenEval at the same inference-time budget.
- Abstract(参考訳): 推定時間スケーリングは、検証器を用いて候補出力をスコアし、選択することにより、テスト時の生成モデルを改善する効果的な方法として登場した。
一般的な選択肢はマルチモーダル大言語モデル (MLLM) を検証器として採用することであり、性能は向上するが、かなりの推論時間コストを導入することができる。
実際、拡散パイプラインは計算量を減らすためにオートエンコーダ潜在空間で動作するが、MLLM検証器はデコード候補をピクセル空間に配置し、それらを視覚的な埋め込み空間に再エンコードする必要があるため、冗長でコストがかかる。
本研究では,Diffusion Transformer (DiT) の中間隠れ表現を直接操作する検証器であるVerifier on Hidden States (VHS)を提案する。
VHSは、画素空間にデコードすることなくジェネレータ機能を解析し、MLLMベースの競合他社のパフォーマンスを改善したり、適合させたりしながら、候補ごとの検証コストを削減する。
提案手法では,1プロンプト当たりの候補数が少ない小さな推論予算の下では,より効率的な推論時間スケーリングを実現し,共同生成検証時間を63.3%,FLOPを51%,VRAMを14.5%削減し,同じ推論時間予算でGenEvalを+2.7%改善した。
関連論文リスト
- Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。