論文の概要: Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.01170v1
- Date: Wed, 01 Apr 2026 17:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.116297
- Title: Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning
- Title(参考訳): オンライン推論の校正: テストタイムトレーニングにより、一般化可能なコンフォーマルLLM推論が可能に
- Authors: Cai Zhou, Zekai Wang, Menghua Wu, Qianyu Julie Zhu, Flora C. Shi, Chenyu Wang, Ashia Wilson, Tommi Jaakkola, Stephen Bates,
- Abstract要約: オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
- 参考スコア(独自算出の注目度): 18.69627681731888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While test-time scaling has enabled large language models to solve highly difficult tasks, state-of-the-art results come at exorbitant compute costs. These inefficiencies can be attributed to the miscalibration of post-trained language models, and the lack of calibration in popular sampling techniques. Here, we present Online Reasoning Calibration (ORCA), a framework for calibrating the sampling process that draws upon conformal prediction and test-time training. Specifically, we introduce a meta-learning procedure that updates the calibration module for each input. This allows us to provide valid confidence estimates under distributional shift, e.g. in thought patterns that occur across different stages of reasoning, or in prompt distributions between model development and deployment. ORCA not only provides theoretical guarantees on conformal risks, but also empirically shows higher efficiency and generalization across different reasoning tasks. At risk level $δ=0.1$, ORCA improves Qwen2.5-32B efficiency on in-distribution tasks with savings up to 47.5% with supervised labels and 40.7% with self-consistency labels. Under zero-shot out-of-domain settings, it improves MATH-500 savings from 24.8% of the static calibration baseline to 67.0% while maintaining a low empirical error rate, and the same trend holds across model families and downstream benchmarks. Our code is publicly available at https://github.com/wzekai99/ORCA.
- Abstract(参考訳): テストタイムのスケーリングにより、大規模言語モデルは非常に困難なタスクを解くことができる一方で、最先端の結果は計算コストを極端に削減できる。
これらの非効率性は、訓練後の言語モデルの誤校正と、一般的なサンプリング技術における校正の欠如に起因する。
本稿では,共形予測とテスト時間トレーニングに基づくサンプリングプロセスの校正を行うフレームワークであるオンライン推論校正(ORCA)を提案する。
具体的には,各入力の校正モジュールを更新するメタ学習手順を提案する。
これにより、例えば、推論の異なる段階にまたがる思考パターンや、モデル開発とデプロイメントの間の迅速な分布などにおいて、分散シフトの下で有効な信頼度推定を提供することができます。
ORCAは、共形リスクに関する理論的保証を提供するだけでなく、異なる推論タスク間で高い効率と一般化を実証的に示す。
リスクレベルが$δ=0.1$で、ORCAはQwen2.5-32Bの効率を改善し、47.5%を監督ラベル、40.7%を自己整合ラベルで節約する。
ドメイン外のゼロショット設定では、MATH-500の保存時間を静的キャリブレーションベースラインの24.8%から67.0%に改善し、経験的エラー率を低く保ちながら、モデルファミリやダウンストリームベンチマークでも同じ傾向が保たれている。
私たちのコードはhttps://github.com/wzekai99/ORCA.comで公開されています。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering [3.7758197704962835]
重み付きデカイプローブを用いて、モデル内部のアクティベーションから正当性信号を捕捉する正規化時間ステアリング法であるCORALを導入する。
コラルは、常に精度を10%改善し、期待キャリブレーション誤差(ECE)を平均50%改善する。
本結果は,個々のニューロンが不十分な場合,正規化プローブを用いてモデル内部の分散情報を抽出できるという仮説を支持する。
論文 参考訳(メタデータ) (2026-02-05T18:55:56Z) - Classifier Calibration at Scale: An Empirical Study of Model-Agnostic Post-Hoc Methods [0.0]
教師付き二項分類における確率的予測を改善するためのモデル非依存のポストホック校正法について検討した。
我々は、線形モデル、SVM、ツリーアンサンブル(CatBoost、XGBoost、LightGBM)を含む21の広く使われている分類器をベンチマークした。
一般的な校正手順,特にプラットスケーリングと等調回帰は,適切なスコアリング性能を体系的に低下させる可能性がある。
論文 参考訳(メタデータ) (2026-01-19T18:23:36Z) - Sample Margin-Aware Recalibration of Temperature Scaling [20.87493013833571]
近年のディープラーニングの進歩は予測精度を大幅に改善した。
現代のニューラルネットワークは体系的に過信され、安全クリティカルなシナリオに展開するリスクを生じさせる。
本稿では,上位2つのロジット間のマージンに基づいて,ロジットを正確にスケールする軽量でデータ効率の高いリカバリ手法を提案する。
論文 参考訳(メタデータ) (2025-06-30T03:35:05Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - AdaFocal: Calibration-aware Adaptive Focal Loss [8.998525155518836]
焦点損失のあるトレーニングは、クロスエントロピーよりもキャリブレーションが優れている。
AdaFocal と呼ばれる適応型焦点損失を校正する手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T20:19:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。