論文の概要: One-Token Verification for Reasoning Correctness Estimation
- arxiv url: http://arxiv.org/abs/2603.01025v1
- Date: Sun, 01 Mar 2026 10:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.468308
- Title: One-Token Verification for Reasoning Correctness Estimation
- Title(参考訳): 共振誤り推定のためのワンツーケン検証
- Authors: Zhan Zhuang, Xiequn Wang, Zebin Chen, Feiyang Ye, Ying Wei, Kede Ma, Yu Zhang,
- Abstract要約: ワンツーケン検証(One-Token Verification、OTV)は、生成中の1つの前方通過における正当性を推定する計算手法である。
OTVは、既存のバリデーションを一貫して上回り、正当性誘導早期終了によりトークン使用量を最大90%削減する。
- 参考スコア(独自算出の注目度): 31.590898058475464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in large language models (LLMs) have led to notable successes in complex reasoning tasks, such as mathematical problem solving. A common strategy for improving performance is parallel thinking, in which multiple reasoning traces are generated and the final prediction is made using aggregation schemes like majority voting or best-of-$N$ decoding. However, two key challenges persist. First, multi-sample decoding incurs substantial inference latency, especially for long-form outputs. Second, effective mechanisms for reliably assessing the correctness of individual reasoning traces are still limited. To address these challenges, we introduce One-Token Verification (OTV), a computational method that estimates reasoning correctness in a single forward pass during generation. OTV is activated by a learnable token and integrated into the LLM via low-rank adaptation to probe internal reasoning signals through the key-value cache, supporting token-level correctness estimation at any stage of generation without disrupting primary reasoning. Experiments on mathematical reasoning benchmarks demonstrate that OTV consistently surpasses existing verifiers. Additionally, OTV reduces token usage by up to $90\%$ through correctness-guided early termination, prioritizing shorter, more reliable solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近のブレークスルーは、数学的な問題解決のような複雑な推論タスクにおいて顕著な成功を収めている。
性能向上のための一般的な戦略は並列思考であり、複数の推論トレースが生成され、最終的な予測は多数決やベスト・オブ・N$デコードのようなアグリゲーションスキームを用いて行われる。
しかし、2つの重要な課題が続いている。
第一に、マルチサンプルデコーディングは、特にロングフォーム出力に対して、かなりの推論遅延を引き起こす。
第二に、個々の推論トレースの正しさを確実に評価する効果的なメカニズムは依然として限られている。
これらの課題に対処するために、生成中の1つの前方通過における正当性を推定する計算手法であるOne-Token Verification(OTV)を導入する。
OTVは学習可能なトークンによって起動され、低ランク適応によりLPMに統合され、鍵値キャッシュを介して内部推論信号を探索し、一次推論を中断することなく、任意の世代でトークンレベルの正当性推定をサポートする。
数学的推論ベンチマークの実験は、OTVが既存の検証器を一貫して上回っていることを示している。
さらに、OTVは、より短く信頼性の高いソリューションを優先して、正確性誘導早期終了によるトークン使用率を最大90\%まで削減する。
関連論文リスト
- Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens [12.788799173865]
深く考えるトークンを識別することで、推論時間の労力を定量化します。
Think@nは、高い深層比でサンプルを優先順位付けするテストタイムスケーリング戦略である。
論文 参考訳(メタデータ) (2026-02-13T23:07:37Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。