論文の概要: Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Aggregation Framework
- arxiv url: http://arxiv.org/abs/2503.02863v1
- Date: Tue, 04 Mar 2025 18:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:28.771811
- Title: Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Aggregation Framework
- Title(参考訳): セマンティックステアリングによるLCM信頼性の校正:マルチプロンプトアグリゲーションフレームワーク
- Authors: Ziang Zhou, Tianyuan Jin, Jieming Shi, Qing Li,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば不一致の信頼スコアを示し、予測の信頼性を過大評価する。
本稿では,信頼度評価,信頼度評価,回答選択という3つの要素を含む新しいフレームワークを提案する。
提案手法を7つのベンチマークで評価し,信頼性校正と故障検出のタスクにおいて,キャリブレーション指標の基準線を一貫して上回る結果を得た。
- 参考スコア(独自算出の注目度): 11.872504642312705
- License:
- Abstract: Large Language Models (LLMs) often exhibit misaligned confidence scores, usually overestimating the reliability of their predictions. While verbalized confidence in Large Language Models (LLMs) has gained attention, prior work remains divided on whether confidence scores can be systematically steered through prompting. Recent studies even argue that such prompt-induced confidence shifts are negligible, suggesting LLMs' confidence calibration is rigid to linguistic interventions. Contrary to these claims, we first rigorously confirm the existence of directional confidence shifts by probing three models (including GPT3.5, LLAMA3-70b, GPT4) across 7 benchmarks, demonstrating that explicit instructions can inflate or deflate confidence scores in a regulated manner. Based on this observation, we propose a novel framework containing three components: confidence steering, steered confidence aggregation and steered answers selection, named SteeringConf. Our method, SteeringConf, leverages a confidence manipulation mechanism to steer the confidence scores of LLMs in several desired directions, followed by a summarization module that aggregates the steered confidence scores to produce a final prediction. We evaluate our method on 7 benchmarks and it consistently outperforms the baselines in terms of calibration metrics in task of confidence calibration and failure detection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば不一致の信頼スコアを示し、予測の信頼性を過大評価する。
言語モデル (LLM) における言語的信頼度は注目されているが, 信頼度スコアを体系的に評価できるかどうかについては, 先行研究が引き続き分かれている。
近年の研究では、このような急激な信頼シフトは無視可能であり、LLMの信頼度校正は言語介入に厳格であることが示唆されている。
これらの主張とは対照的に、我々はまず7つのベンチマークで3つのモデル(GPT3.5, LLAMA3-70b, GPT4)を探索することにより、指向性信頼度変化の存在を厳格に確認し、明示的な指示が規制された方法で信頼度を増減することを示した。
本研究は,信頼度ステアリング,信頼度アグリゲーション,回答選択という3つの要素を含む新しいフレームワークを提案する。
提案手法であるSteeringConfでは,LLMの信頼性スコアを複数の所望の方向に操るための信頼制御機構を活用し,次いで,評価スコアを集計して最終的な予測を行う要約モジュールを作成した。
提案手法を7つのベンチマークで評価し,信頼性校正と故障検出のタスクにおいて,キャリブレーション指標の基準線を一貫して上回る結果を得た。
関連論文リスト
- Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。