論文の概要: Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.16282v1
- Date: Sat, 25 May 2024 15:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 22:07:19.358529
- Title: Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models
- Title(参考訳): フッド下の信頼:大規模言語モデルにおける信頼-確率アライメントの検討
- Authors: Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami,
- Abstract要約: 信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
- 参考スコア(独自算出の注目度): 14.5291643644017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM's internal confidence, quantified by token probabilities, to the confidence conveyed in the model's response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models' internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model's confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI's GPT-4 showed the strongest confidence-probability alignment, with an average Spearman's $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.
- Abstract(参考訳): LLM(Large Language Models)の使用が広まるにつれて、これらのモデルの出力の信頼性に不可欠なので、生成した応答に対する自信の自己評価を理解することがますます重要になる。
本稿では, LLMの内部信頼度をトークン確率で定量化した信頼度と, その確実性を明示的に問う場合のモデル応答で伝達される信頼度を結合する信頼確率アライメントの概念を紹介する。
モデルイントロスペクションを促進する様々なデータセットとプロンプト技術を用いて、モデルの内部と表現された信頼の一致を探索する。
これらの手法は、信頼度を評価するために構造化された評価尺度を使用し、プロンプト時の回答オプションや、それ自身が認識していない出力に対してモデルの信頼レベルを引き出すことを含む。
特に、分析されたモデルの中で、OpenAIのGPT-4は、幅広いタスクにわたって、平均的なSpearmanの$\hat{\rho}$ 0.42の信頼性と確率のアライメントを示した。
我々の研究は、LCMの適用におけるリスクアセスメントの促進と、モデル信頼性のさらなる理解に寄与する。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,信頼度を推定するために(解釈可能な)モデルを訓練する,シンプルでロジスティックなフレームワークを提案する。
我々は,本フレームワークがFlan-ul2, llama-13b, Mistral-7bの信頼度推定に有効であることを実証的に実証した。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [20.30651158009765]
大型言語モデル(LLM)は幻覚を生成し、予測に過剰な自信を示す。
モデル応答の信頼性の程度を示す信頼性または不確実性の推定は、信頼できるAIシステムの開発に不可欠である。
本稿では,LLM上でのtextbf Multitextbflingual textbfConfidence Estimation (textscMlingConf) について包括的に検討する。
論文 参考訳(メタデータ) (2024-02-21T08:20:06Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - Improving the Reliability for Confidence Estimation [16.952133489480776]
信頼度推定は、デプロイ中のモデルの予測出力の信頼性を評価することを目的としたタスクである。
これまでの研究は、信頼度推定モデルが持つべき2つの重要な特性を概説してきた。
信頼度推定モデルにおいて、両方の品質を同時に改善できるメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T06:34:23Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。