論文の概要: Confidence-Aware Alignment Makes Reasoning LLMs More Reliable
- arxiv url: http://arxiv.org/abs/2605.07353v1
- Date: Fri, 08 May 2026 07:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.87534
- Title: Confidence-Aware Alignment Makes Reasoning LLMs More Reliable
- Title(参考訳): 信頼性に配慮したアライメントによってLLMの信頼性が向上
- Authors: Kejia Chen, Jiawen Zhang, Yihong Wu, Kewei Gao, Jian Lou, Zunlei Feng, Mingli Song, Ruoxi Jia,
- Abstract要約: CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
- 参考スコア(独自算出の注目度): 65.44962502963378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models often reach correct answers through flawed intermediate steps, creating a gap between final accuracy and reasoning reliability. Existing alignment strategies address this with external verifiers or massive sampling, limiting scalability. In this work, we introduce CASPO (Confidence-Aware Step-wise Preference Optimization), a framework that aligns token-level confidence with step-wise logical correctness through iterative Direct Preference Optimization, without training a separate reward model. During inference, we propose Confidence-aware Thought (CaT), which leverages this calibrated confidence to dynamically prune uncertain reasoning branches with negligible O(V) latency. Experiments across ten benchmarks and multiple model families show that CASPO consistently improves reasoning reliability and inference efficiency. CASPO scales to Qwen3-8B-Base and surpasses tree-search baselines on AIME'24 and AIME'25 without using reward-model data. We also release a step-wise dataset with confidence annotations to support fine-grained analysis of reasoning reliability. Code is available at https://github.com/Thecommonirin/CASPO.
- Abstract(参考訳): 大規模な推論モデルは、しばしば欠陥のある中間ステップを通じて正しい答えに到達し、最終的な精度と推論信頼性のギャップを生じさせる。
既存のアライメント戦略は、拡張性を制限する外部検証や大規模なサンプリングによってこの問題に対処する。
本稿では,CASPO(Confidence-Aware Step-wise Preference Optimization)について紹介する。これは,トークンレベルの信頼度を,個別の報酬モデルをトレーニングすることなく,反復的な直接参照最適化を通じてステップワイズ論理的正当性に整合させるフレームワークである。
推論中は、このキャリブレーションされた信頼を利用して、無視可能なO(V)レイテンシを持つ不確実な推論枝を動的に創出する、信頼を意識した思考(CaT)を提案する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
CASPO は Qwen3-8B-Base にスケールし、報酬モデルデータを使用しずに AIME'24 と AIME'25 のツリー検索ベースラインを超える。
また、信頼性アノテーションを備えたステップワイズデータセットをリリースし、推論信頼性のきめ細かい分析をサポートしています。
コードはhttps://github.com/Thecommonirin/CASPO.comで入手できる。
関連論文リスト
- Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Instinct vs. Reflection: Unifying Token and Verbalized Confidence in Multimodal Large Models [11.878003218072765]
MLLM(Multimodal Large Language Models)は、様々な知覚や推論タスクにおいて例外的な機能を示す。
二重チャネル信号とチャネル間の整合性を融合して正当性を推定するモノトーン信頼融合フレームワークを提案する。
各種オープンソースおよびクローズドソースMLLMの実験結果から,本手法は信頼性の高い推定値が得られることがわかった。
論文 参考訳(メタデータ) (2026-04-19T06:07:39Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence [22.382291859991472]
本稿では,大言語モデルが抑止力を考慮した意思決定を支援するかを評価するための決定論的指標である行動アライメントスコア(BAS)を紹介する。
BASは、明示的な回答または持続可能なユーティリティモデルから派生し、リスク閾値の連続体にわたって実現されたユーティリティを集約する。
理論的には、真理信頼度推定は期待されるBASユーティリティを一意に最大化し、キャリブレーションと決定-最適行動のリンクを示す。
論文 参考訳(メタデータ) (2026-04-03T17:44:32Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。