論文の概要: Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery
- arxiv url: http://arxiv.org/abs/2606.02011v1
- Date: Mon, 01 Jun 2026 10:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.781425
- Title: Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery
- Title(参考訳): 推論モデルにおける極低ビット推論:障害モードと目標回復
- Authors: Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov,
- Abstract要約: 生成プロセスの不安定性はトークン数を膨らませるため、2ビットのアグレッシブ推論がエンドツーエンドのスピードアップを達成できないことを示す。
Qwen3推論モデルの完全な推論トレースを数学的および常識的なベンチマークで分析する。
以上の結果から, 異常を制御可能な世代病理として扱うと, 極端に低ビット推論が現実的になることがわかった。
- 参考スコア(独自算出の注目度): 40.94400211806987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) rely on long reasoning traces, making inference expensive. While low-bit quantization reduces per-token decoding cost, we show that aggressive 2-bit inference can fail to deliver end-to-end speedup because instability in the generation process inflates total token count. Instead of merely lowering answer accuracy, 2-bit quantization often produces much longer traces with repetitive loops, budget exhaustion, delayed commitment, and unclosed reasoning segments. We analyze full reasoning traces of Qwen3 reasoning models across mathematical and commonsense benchmarks and show that accuracy degradation is tightly linked to these process-level failures. To address them, we introduce two lightweight controls: FP16 planning, which gives the 2-bit model a short high-precision outline, and loop rescue, which detects repetitive traces and either commits to an earlier answer or falls back to FP16. On MATH-500, loop rescue improves Qwen3-8B accuracy from 17.2% to 74.2%, while planning plus loop rescue improves Qwen3-32B from 65.0% to 87.2%. Overall, our results show that extreme low-bit reasoning becomes practical when its failures are treated as controllable generation pathologies: with lightweight detection and selective FP16 support, 2-bit inference can recover accuracy while preserving real end-to-end speed. Our code is available at: https://github.com/brain-lab-research/quantized-reasoning.
- Abstract(参考訳): 大きな推論モデル(LRM)は長い推論のトレースに依存しており、推論は高価である。
低ビット量子化はトークン単位の復号コストを低減させるが、生成プロセスの不安定性がトークン数を膨らませるため、2ビットのアグレッシブ推論がエンドツーエンドのスピードアップを達成できないことを示す。
単に答えの精度を下げるのではなく、2ビットの量子化は繰り返しループ、予算の枯渇、遅れたコミットメント、未閉の推論セグメントでずっと長いトレースを生成する。
数式およびコモンセンスベンチマークを用いてQwen3推論モデルの完全な推論トレースを分析し、精度劣化がこれらのプロセスレベルの故障と密接に関連していることを示す。
2ビットモデルに短い高精度のアウトラインを与えるFP16プランニングと、繰り返しトレースを検出し、以前の回答にコミットするか、FP16にフォールバックするかの2つの軽量な制御を導入する。
MATH-500では、ループ救助はQwen3-8Bの精度を17.2%から74.2%に改善し、計画とループ救助はQwen3-32Bの65.0%から87.2%に改善した。
以上の結果から, 故障を制御可能な生成経路として扱うと, 極端に低ビット推論が現実的になる可能性が示唆された。
私たちのコードは、https://github.com/brain-lab-research/quantized-reasoning.comで利用可能です。
関連論文リスト
- STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes [13.293115227628775]
ロングチェーン・オブ・シークレット (Long CoT) 推論は多段階問題のパフォーマンスを向上させるが、過度な考えも引き起こす。
長文推論トレースを解析・解析するオンラインアルゴリズムSTOP(Structured On-policy Pruning)を提案する。
論文 参考訳(メタデータ) (2026-05-13T08:28:05Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。