論文の概要: BitCal-TTS: Bit-Calibrated Test-Time Scaling for Quantized Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.05561v1
- Date: Thu, 07 May 2026 01:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.470783
- Title: BitCal-TTS: Bit-Calibrated Test-Time Scaling for Quantized Reasoning Models
- Title(参考訳): BitCal-TTS:量子化推論モデルのためのビットキャリブレーションテスト時間スケーリング
- Authors: Sai Babu Patarlapalli, Surya Teja Avvaru,
- Abstract要約: BitCal-TTSは、greedy 4ビット推論のための軽量ランタイムコントローラである。
標準のHugging Face 4ビット推論と統合され、フォワードフックを使ってログとラストレイヤーの隠蔽状態を生成する。
Qwen2.5インストラクトモデルによるGSM8Kの評価シャードについて、BitCal-TTSは、非ビット対応ベースラインよりも正確なマッチング精度を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization makes large reasoning models practical under tight memory and latency budgets, but it can distort the online signals that drive adaptive test-time compute allocation. Under a fixed cap on the number of newly generated tokens, miscalibrated confidence can lead to harmful early halting: the model may surface a plausible final line while the underlying reasoning is still wrong, or the controller may stop before the trace has stabilized. We study this interaction for greedy 4-bit inference and propose BitCal-TTS, a lightweight runtime controller that combines (i) inexpensive online proxies for token-level uncertainty and reasoning-trace stability, (ii) a bit-conditioned confidence rescaling that is conservative at low nominal precision, and (iii) a bit-aware post-marker confirmation horizon designed for GSM8K-style structured outputs. The method requires no fine-tuning of the base model and integrates with standard Hugging Face 4-bit inference using forward hooks for logits and last-layer hidden states. On small evaluation shards of GSM8K with Qwen2.5 Instruct models, BitCal-TTS improves exact-match accuracy over a non-bit-aware adaptive baseline at the 7B and 14B scales while preserving substantial token savings relative to fixed-budget decoding. At a token cap of B=512, on the evaluation shards we report (N=54 for 7B and N=35 for 14B; not the full GSM8K test set), accuracy gains are +3.7 points (7B) and +2.8 points (14B), with the premature-stop rate falling from 14.8% to 11.1% on 7B and from 17.1% to 11.4% on 14B. We report Wilson 95% confidence intervals throughout and explicitly discuss the limited statistical power of the partial-shard comparisons. We release code and figure-generation scripts to support full reproduction.
- Abstract(参考訳): トレーニング後の量子化は、厳密なメモリと遅延予算の下で大きな推論モデルを実用的にするが、適応的なテスト時間計算割り当てを駆動するオンラインシグナルを歪めることができる。
新たに生成されたトークンの数に固定された上限の下では、誤校正された信頼が有害な早期停止を引き起こす可能性がある。
欲求4ビット推論のためのこのインタラクションについて検討し、軽量ランタイムコントローラであるBitCal-TTSを提案する。
一 トークンレベルの不確実性及び推論・トレース安定のための安価なオンラインプロキシ
(二)低い名目精度で保守的なビット条件の信頼再スケーリング、及び
(iii)GSM8Kスタイルの構造化出力用に設計されたビット認識ポストマーカー確認水平線。
この方法は、ベースモデルの微調整を必要とせず、標準のHugging Face 4ビット推論と統合し、ロジットとラスト層隠れ状態のためのフォワードフックを使用する。
Qwen2.5 インストラクトモデルによる GSM8K の小さな評価シャードでは、BitCal-TTS は、7B と 14B スケールの非ビット対応ベースラインに対して、固定予算デコードに対して実質的なトークン保存を保ちながら、正確なマッチング精度を向上させる。
B=512 のトークンキャップでは、評価シャード(全 GSM8K テストセットではなく 7B の N=54 と 14B の N=35 )について、精度は +3.7 点 (7B) と +2.8 点 (14B) で、7B では 14.8% から 11.1% に、14B では 17.1% から 11.4% に低下する。
我々はWilson 95%の信頼区間を報告し、部分シャード比較の限られた統計的パワーについて明確に議論する。
完全再現をサポートするためのコードと図形生成スクリプトをリリースします。
関連論文リスト
- Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning [18.69627681731888]
オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
論文 参考訳(メタデータ) (2026-04-01T17:21:50Z) - Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Learnable Conformal Prediction with Context-Aware Nonconformity Functions for Robotic Planning and Perception [4.694504497452662]
Learnable Conformal Predictionは、固定スコアを軽量なニューラル関数に置き換えて、コンテキスト認識の不確実性セットを生成する。
CPの理論的保証を維持しつつ、予測セットのサイズを18%減らし、検出間隔を52%減らし、経路計画の安全性を72%から91%に改善し、オーバーヘッドを最小限に抑えている。
ハードウェア評価では、LCPは1%未満のメモリと15.9%の推論オーバーヘッドを追加したが、検出タスクでは39 FPSを維持し、アンサンブルの7.4倍のエネルギー効率を保っている。
論文 参考訳(メタデータ) (2025-09-26T06:44:58Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Optimization of Quantum Error Correcting Code under Temporal Variation of Qubit Quality [2.348041867134616]
我々は、IBMの127量子ビットデバイス(ibm_kyiv)から12日間の校正データを解析する。
本稿では,日々のエラー率に基づいて,キュービットあたりの適切なコード距離を選択する,シンプルな適応型QEC手法を提案する。
ibm_kyivの12日間のキャリブレーションでは, 論理量子ビット当たりの物理量子ビットオーバーヘッドを50%以上削減し, 使用可能な量子ビットの85-100%のアクセスを維持した。
論文 参考訳(メタデータ) (2025-05-09T16:15:17Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。