論文の概要: CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
- arxiv url: http://arxiv.org/abs/2510.24505v1
- Date: Tue, 28 Oct 2025 15:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.247416
- Title: CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
- Title(参考訳): CritiCal: 批判はLLMの不確実性や信頼性の校正に役立つか?
- Authors: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song,
- Abstract要約: 本稿では,自然言語批判が言語的信頼をいかに高めるかを検討する。
本稿では,LLMの信頼性をただの精度以上で評価し,信頼性を最適化する自己批判を提案する。
実験の結果、CritiCalはSelf-Critiqueや他の競争ベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 55.32645640455462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.
- Abstract(参考訳): 大言語モデル(LLMs)の正確な信頼度校正は、言語的信頼がユーザ信頼を高めるような高い領域において、安全な使用には不可欠である。
参照信頼表現を模倣する従来の手法は、正確な信頼評価に必要な推論を捉えるのに失敗することが多い。
精度の高いゴールドの信頼性ラベルは入手が困難であり,何世代にもわたって必要となるため, 信頼性校正に適した自然言語批判を解として提案する。
本稿では,自然言語批判が言語的信頼を高める方法について考察する:(1)不確実性(問合せに焦点を絞った)や信頼(問合せに焦点をあてる)とは何か?
分析では、信頼度は複数の選択タスクに適合するが、不確実性はオープンなシナリオで優れている。
(2)自己批判的・批判的校正訓練はどのように行うか?
本稿では,LLMが単なる精度を超える信頼度を評価・最適化できる自己批判法と,自然言語による信頼度校正を向上し,直接的な数値最適化を超えて,信頼度校正を向上する新たな批判校正法であるCritiCalを提案する。
実験によると、CritiCalは、複雑な推論タスクにおいて、教師モデルであるGPT-4oをはるかに上回る自己批判やその他の競争ベースラインを著しく上回っている。
CritiCalはまた、配布外設定の堅牢な一般化を示し、LLMの信頼性を高めている。
関連論文リスト
- Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。