論文の概要: Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence?
- arxiv url: http://arxiv.org/abs/2408.09773v1
- Date: Mon, 19 Aug 2024 08:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:14:27.182549
- Title: Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence?
- Title(参考訳): 大規模言語モデルは確率的あるいは言語化された信頼においてより誠実か?
- Authors: Shiyu Ni, Keping Bi, Lulu Yu, Jiafeng Guo,
- Abstract要約: 大きな言語モデル (LLM) は、質問が内部知識境界を超えると幻覚を引き起こす。
LLMの知識境界に対する認識に関する既存の研究は、通常、生成されたトークンの確率またはモデルの応答に対する信頼度として言語化された信頼のいずれかを使用する。
- 参考スコア(独自算出の注目度): 26.69630281310365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been found to produce hallucinations when the question exceeds their internal knowledge boundaries. A reliable model should have a clear perception of its knowledge boundaries, providing correct answers within its scope and refusing to answer when it lacks knowledge. Existing research on LLMs' perception of their knowledge boundaries typically uses either the probability of the generated tokens or the verbalized confidence as the model's confidence in its response. However, these studies overlook the differences and connections between the two. In this paper, we conduct a comprehensive analysis and comparison of LLMs' probabilistic perception and verbalized perception of their factual knowledge boundaries. First, we investigate the pros and cons of these two perceptions. Then, we study how they change under questions of varying frequencies. Finally, we measure the correlation between LLMs' probabilistic confidence and verbalized confidence. Experimental results show that 1) LLMs' probabilistic perception is generally more accurate than verbalized perception but requires an in-domain validation set to adjust the confidence threshold. 2) Both perceptions perform better on less frequent questions. 3) It is challenging for LLMs to accurately express their internal confidence in natural language.
- Abstract(参考訳): 大きな言語モデル (LLM) は、質問が内部知識境界を超えると幻覚を引き起こす。
信頼できるモデルは、その知識の境界を明確に認識し、その範囲内で正しい答えを提供し、知識の欠如に答えることを拒否しなければならない。
LLMの知識境界に対する認識に関する既存の研究は、通常、生成されたトークンの確率またはモデルの応答に対する信頼度として言語化された信頼のいずれかを使用する。
しかし、これらの研究は両者の違いと関係を見落としている。
本稿では,LLMの確率的知覚と事実的知識境界の言語的知覚を包括的に分析し,比較する。
まず、これらの2つの知覚の長所と短所について検討する。
次に,周波数の異なる疑問の下でどのように変化するかを検討する。
最後に,LLMの確率的信頼度と言語的信頼度との相関を計測した。
実験の結果
1) LLMの確率的知覚は, 言語的知覚よりも一般的に正確であるが, 信頼閾値を調整するためには, ドメイン内検証セットが必要である。
2) 頻度の低い質問では, 両者の知覚が良好である。
3) LLM が自然言語に対する内的信頼を正確に表現することは困難である。
関連論文リスト
- LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals [53.273592543786705]
大規模言語モデル (LLM) は大きな成功を収めたが、時折そのコンテンツ作成(幻覚)は実用的応用を制限している。
本稿では,まず内部信頼度を用いてLLMの知識境界を探索し,探索結果を利用して知識境界の表現を抽出するCoKEを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:07:20Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? [21.814007454504978]
大規模言語モデル(LLM)は,自然言語における本質的な不確実性を表現できることが示唆された。
我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
論文 参考訳(メタデータ) (2024-05-27T07:56:23Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - The Confidence-Competence Gap in Large Language Models: A Cognitive
Study [3.757390057317548]
大規模言語モデル(LLM)は、様々な領域にわたるパフォーマンスに対して、広く注目を集めている。
我々はこれらのモデルを多様なアンケートと実世界のシナリオで活用する。
この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
論文 参考訳(メタデータ) (2023-09-28T03:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。