論文の概要: Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision
- arxiv url: http://arxiv.org/abs/2506.03723v1
- Date: Wed, 04 Jun 2025 08:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.245922
- Title: Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision
- Title(参考訳): Verbalized Confidence Triggers Self-Verification: 明示的推論を伴わない創発的行動
- Authors: Chaeyun Jang, Moonseok Choi, Yegon Kim, Hyungi Lee, Juho Lee,
- Abstract要約: 大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
- 参考スコア(独自算出の注目度): 12.287123198288079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty calibration is essential for the safe deployment of large language models (LLMs), particularly when users rely on verbalized confidence estimates. While prior work has focused on classifiers or short-form generation, confidence calibration for chain-of-thought (CoT) reasoning remains largely unexplored. Surprisingly, we find that supervised fine-tuning with scalar confidence labels alone suffices to elicit self-verification behavior of language models, without any explicit reasoning supervision or reinforcement learning-based rewards. Despite being trained only to produce a verbalized confidence score without any self-verifying examples, the model learns to generate longer and self-checking responses for low-confidence queries while providing more concise answers for high-confidence ones. We further propose a simple rethinking method that boosts performance via test-time scaling based on calibrated uncertainty. Experiments on GSM8K and held-out reasoning tasks such as MATH-500 and ARC-Challenge show that our confidence-aware fine-tuning improves both calibration and accuracy, while also enhancing interpretability by aligning the model's reasoning path with its confidence.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である。
それまでの研究は分類器やショートフォーム生成に重点を置いてきたが、チェーン・オブ・ソート(CoT)推論の信頼性校正は未解明のままである。
驚くべきことに、スカラー信頼ラベルのみを用いた教師付き微調整は、言語モデルの自己検証行動を引き出すのに十分であり、明確な理由づけの監督や強化学習に基づく報酬は不要である。
自己検証のサンプルを使わずに、言語化された信頼スコアを生成するように訓練されているにもかかわらず、モデルは、信頼度の高いクエリに対して、より簡潔な回答を提供しながら、より長く自己チェックする応答を生成することを学習する。
さらに、校正不確実性に基づいたテスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
GSM8KとMATH-500やARC-Challengeのようなホールドアウト推論タスクの実験では、信頼性を考慮した微調整がキャリブレーションと精度の両方を改善しつつ、モデルの推論経路を信頼性と整合させることで解釈性を向上させることが示されている。
関連論文リスト
- ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。