論文の概要: Improving Metacognition and Uncertainty Communication in Language Models
- arxiv url: http://arxiv.org/abs/2510.05126v2
- Date: Tue, 21 Oct 2025 21:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:10.915302
- Title: Improving Metacognition and Uncertainty Communication in Language Models
- Title(参考訳): 言語モデルにおけるメタ認知と不確実性コミュニケーションの改善
- Authors: Mark Steyvers, Catarina Belem, Padhraic Smyth,
- Abstract要約: 大規模言語モデル(LLM)は、意思決定の文脈でますます使われている。
LLMの自信はしばしば誤解され、正解と誤解の区別が不十分である。
教師付き微調整が不確実性を伝達するモデルの能力を向上させるかどうかを検討する。
- 参考スコア(独自算出の注目度): 13.389881635116472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in decision-making contexts, but when they present answers without signaling low confidence, users may unknowingly act on erroneous outputs. Prior work shows that LLMs maintain internal uncertainty signals, yet their expressed confidence is often miscalibrated and poorly discriminates between correct and incorrect answers. We investigate whether supervised fine-tuning can improve models' ability to communicate uncertainty and whether such improvements generalize across tasks and domains. We fine-tune LLMs on datasets spanning general knowledge, mathematics, and open-ended trivia, and evaluate two metacognitive tasks: (1) single-question confidence estimation, where the model assigns a numeric certainty to its answer, and (2) pairwise confidence comparison, where the model selects which of two answers it is more likely to answer correctly. We assess generalization to unseen domains, including medical and legal reasoning. Results show that fine-tuning improves calibration (alignment between stated confidence and accuracy) and discrimination (higher confidence for correct vs. incorrect responses) within and across domains. However, gains are task-specific: training on single-question calibration does not transfer to pairwise comparison, and vice versa. Multitask fine-tuning yields broader gains, lowering calibration error and strengthening discrimination in out-of-domain evaluations. This suggests that uncertainty communication in LLMs is trainable but requires multitask training to generalize effectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、意思決定の文脈で使われることが多いが、低信頼のシグナルを示さずに回答を提示すると、ユーザは誤出力に無意識に作用する可能性がある。
以前の研究は、LSMが内部の不確実性信号を維持していることを示しているが、その表現された自信はしばしば誤解され、正解と誤解の区別が不十分であることを示している。
教師付き微調整が不確かさを伝達するモデルの能力を向上させるか、タスクやドメインにまたがってそのような改善が一般化されるかを検討する。
一般知識,数学,オープントリビアにまたがるデータセットに基づいてLLMを微調整し,(1)単一質問の信頼度推定,(2)数値の確実性をその解に割り当てる,(2)モデルが解答のどちらを選択するかを選択する,という2つのメタ認知的タスクを評価する。
我々は、医学的、法的推論を含む、目に見えない領域への一般化を評価する。
その結果、微調整により、ドメイン内およびドメイン間のキャリブレーション(信頼度と正確さの調整)と識別(正確さと不適切な応答に対する高い信頼度)が向上することが示された。
しかし、ゲインはタスク固有のものであり、シングルクエクションキャリブレーションのトレーニングはペア比較に移行しない。
マルチタスクファインチューニングは、キャリブレーションエラーを低減し、ドメイン外評価における差別を強化することによって、より広範な利得を得る。
このことは、LLMにおける不確実性通信は訓練可能であるが、効果的に一般化するにはマルチタスクの訓練が必要であることを示唆している。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。