論文の概要: Conformal Thinking: Risk Control for Reasoning on a Compute Budget
- arxiv url: http://arxiv.org/abs/2602.03814v1
- Date: Tue, 03 Feb 2026 18:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.634572
- Title: Conformal Thinking: Risk Control for Reasoning on a Compute Budget
- Title(参考訳): コンフォーマル思考:計算予算における推論のリスク制御
- Authors: Xi Wang, Anushri Suresh, Alvin Zhang, Rishi More, William Jurayj, Benjamin Van Durme, Mehrdad Farajtabar, Daniel Khashabi, Eric Nalisnick,
- Abstract要約: 大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
- 参考スコア(独自算出の注目度): 60.65072883773352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Large Language Models (LLMs) enable test-time scaling, with dataset-level accuracy improving as the token budget increases, motivating adaptive reasoning -- spending tokens when they improve reliability and stopping early when additional computation is unlikely to help. However, setting the token budget, as well as the threshold for adaptive reasoning, is a practical challenge that entails a fundamental risk-accuracy trade-off. We re-frame the budget setting problem as risk control, limiting the error rate while minimizing compute. Our framework introduces an upper threshold that stops reasoning when the model is confident (risking incorrect output) and a novel parametric lower threshold that preemptively stops unsolvable instances (risking premature stoppage). Given a target risk and a validation set, we use distribution-free risk control to optimally specify these stopping mechanisms. For scenarios with multiple budget controlling criteria, we incorporate an efficiency loss to select the most computationally efficient exiting mechanism. Empirical results across diverse reasoning tasks and models demonstrate the effectiveness of our risk control approach, demonstrating computational efficiency gains from the lower threshold and ensemble stopping mechanisms while adhering to the user-specified risk target.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論により、トークン予算の増加に伴ってデータセットレベルの精度が向上し、アダプティブ推論のモチベーション -- 信頼性が向上し、追加計算が役に立たない早期の停止にトークンを使用する、テスト時のスケーリングが可能になる。
しかし、トークン予算の設定と適応推論のしきい値の設定は、基本的なリスク-正確性トレードオフを必要とする実践的な課題である。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
提案手法では,モデルが自信(誤出力)の場合に推論を停止する上位しきい値と,未解決のインスタンス(未熟停止)を事前に停止させる新しいパラメトリック低しきい値を導入する。
対象のリスクと検証セットが与えられた場合、これらの停止メカニズムを最適に特定するために、分布自由リスク制御を使用する。
複数の予算管理基準を持つシナリオに対して、最も計算効率のよい出口機構を選択するために効率損失を組み込む。
多様な推論タスクやモデルにまたがる実証的な結果から,リスク管理手法の有効性が示され,低しきい値から計算効率が向上し,ユーザが特定したリスクターゲットに固執しながら停止機構が組み合わさった。
関連論文リスト
- e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - An Identifiable Cost-Aware Causal Decision-Making Framework Using Counterfactual Reasoning [18.324601057882386]
そこで本研究では,最小コスト因果決定(MiCCD)フレームワークを提案する。
混合異常データの存在を識別する反ファクト的推論プロセスに重点を置いている。
MiCCDは、F1スコア、コスト効率、ランキング品質(nDCG@k値)など、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-13T08:41:45Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - EERO: Early Exit with Reject Option for Efficient Classification with limited budget [2.504298819189614]
本稿では,早期退避の問題をリジェクションオプション付き複数分類器を使用する問題に翻訳する新しい手法であるEEROを提案する。
我々は、固定予算を保証するために指数重の集約を用いて、異なる頭部で出口の確率を調整する。
Cifar と ImageNet のデータセット上で ResNet-18 モデルと ConvNext アーキテクチャを用いて実験を行った結果,提案手法は予算配分を効果的に管理するだけでなく,過度なシナリオの正確性も向上することが示された。
論文 参考訳(メタデータ) (2024-02-06T07:50:27Z) - Risk-Controlling Model Selection via Guided Bayesian Optimization [35.53469358591976]
他の競合するメトリクスに対して有用でありながら、特定のリスクに対するユーザ指定の制限に固執する構成を見つけます。
提案手法は,指定された関心領域に属する最適構成の集合を同定する。
提案手法は,低誤差率,等式予測,スプリアス相関処理,生成モデルにおける速度と歪みの管理,計算コストの削減など,複数のデシダラタを用いたタスクに対する有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T07:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。