論文の概要: Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.18419v1
- Date: Mon, 20 Apr 2026 15:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.975075
- Title: Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning
- Title(参考訳): クイットのタイミングを知る: LLM推論における動的回避のための原則的フレームワーク
- Authors: Hen Davidov, Nachshon Cohen, Oren Kalinsky, Yaron Fairstein, Guy Kushilevitz, Ram Yazdi, Patrick Rebeschini,
- Abstract要約: 無視は、アウトプットの正確さを抑えることで、これを緩和することができる。
本稿では,大規模言語モデルに対する動的棄権の形式的解析について述べる。
値関数を近似する原理的かつ効率的な手法を導出する。
- 参考スコア(独自算出の注目度): 14.21654642388249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) using chain-of-thought reasoning often waste substantial compute by producing long, incorrect responses. Abstention can mitigate this by withholding outputs unlikely to be correct. While most abstention methods decide to withhold outputs before or after generation, dynamic mid-generation abstention considers early termination of unpromising reasoning traces at each token position. Prior work has explored empirical variants of this idea, but principled guidance for the abstention rule remains lacking. We present a formal analysis of dynamic abstention for LLMs, modeling abstention as an explicit action within a regularized reinforcement learning framework. An abstention reward parameter controls the trade-off between compute and information. We show that abstaining when the value function falls below this reward strictly outperforms natural baselines under general conditions. We further derive a principled and efficient method to approximate the value function. Empirical results on mathematical reasoning and toxicity avoidance tasks support our theory and demonstrate improved selective accuracy over existing methods.
- Abstract(参考訳): 連鎖推論を用いた大規模言語モデル(LLM)は、長い誤った応答を生成することで、かなりの計算を無駄にすることが多い。
無視は、アウトプットの正確さを抑えることで、これを緩和することができる。
ほとんどの禁忌法は、生成前後の出力を抑止するが、動的な中世代禁忌は、各トークン位置における未予測の推論トレースの早期終了を考慮する。
以前の研究では、この概念の実証的な変種を探求してきたが、禁制に関する原則的なガイダンスはいまだに欠如している。
正規化強化学習フレームワーク内での明示的な行動として, LLMの動的棄権の形式的解析を行い, 棄権をモデル化する。
棄権報酬パラメータは、計算と情報の間のトレードオフを制御する。
値関数がこの報酬より下にあるときの棄却は、一般条件下での自然な基底線を厳密に上回ることを示す。
さらに、値関数を近似する原理的かつ効率的な手法を導出する。
数学的推論および毒性回避タスクに関する実証的な結果は、我々の理論を支持し、既存の方法よりも優れた選択精度を実証する。
関連論文リスト
- APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering [14.298418197820912]
大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
論文 参考訳(メタデータ) (2025-05-18T01:34:34Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Fair Classifiers that Abstain without Harm [24.90899074869189]
批判的な応用においては、分類器は人間に意思決定を延期することが不可欠である。
本稿では,既存の分類器が特定のサンプルの予測を選択的に禁ずるポストホック法を提案する。
この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。
論文 参考訳(メタデータ) (2023-10-09T23:07:28Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。