論文の概要: LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning
- arxiv url: http://arxiv.org/abs/2512.05325v1
- Date: Fri, 05 Dec 2025 00:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.84599
- Title: LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning
- Title(参考訳): LYNX:信頼できる推論のための動的エクササイズ学習
- Authors: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna,
- Abstract要約: LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
- 参考スコア(独自算出の注目度): 15.597220136913258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.
- Abstract(参考訳): 大規模な推論モデルは、思考の連鎖を拡大することによって複雑なタスクにおいて強力なパフォーマンスを達成するが、しばしば「過大評価」される。
これは推論時間の計算を無駄にし、精度を損なう可能性がある。
既存の試みでは、余分なサンプリングとヒューリスティックでデコードを操作するか、補助的な検証モデルに頼るか、公式な保証なしにポストホック分析パイプラインとしてのみ動作する。
LYNXはオンラインの早期退避機構で、モデル自身の隠れ状態の認識を信頼性に制御された停止決定に変換する。
LYNXは、生成中の自然発生推論キュー(例えば、"hmm", "wait")に出口決定をアタッチし、強制出口からの監督を用いてこれらのキュートークンの隠れ状態に対する軽量なプローブを訓練し、その結果のスコアを分割整列予測でラップし、早めの出口に対する分布制御を得る。
重要なことは、このプローブを一般的な数学的コーパスでトレーニングして調整し、ベンチマークやデコード温度、さらには非数学的なタスクで再利用することです。
GSM8Kでは、LYNXはトークンを40-65\%削減しながらベースライン精度を向上し、MATH-500では、約35-60\%のトークンで最大12ポイントまで精度を向上し、AIME 2024では50-%以上のトークンセーブでベースライン精度を回復し、非数学ベンチマークであるCommonsenseQAでは、モデスト精度が向上し、最大70-%のトークンでゼロショットを転送する。
最先端のアーリーエグジットメソッドと比較すると、LYNXは競合的ないし優れたParetoフロンティアを提供するが、完全にオンラインであり、推論時にプロキシモデルを必要としない。
関連論文リスト
- ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning [5.37133760455631]
推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する新しいエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロブからのシャノンエントロピーを信頼信号として使用し,早期停止を実現する。
エントロピーに基づく信頼度キャリブレーションは,事前学習後の最適化の創発的特性を示す。
論文 参考訳(メタデータ) (2025-10-09T12:33:16Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability [14.00844847268286]
早期のDeep Neural Networksは、中間層での予測を可能にすることで、適応推論を可能にする。
我々のフレームワークは、フルモデルのパフォーマンスと比較して、パフォーマンス低下(2%)を最小限に抑えながら、スピードアップ(1.70-2.10x)が一貫した改善を示している。
論文 参考訳(メタデータ) (2025-09-28T06:05:24Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。