論文の概要: The Confidence-Competence Gap in Large Language Models: A Cognitive
Study
- arxiv url: http://arxiv.org/abs/2309.16145v1
- Date: Thu, 28 Sep 2023 03:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:08:01.200017
- Title: The Confidence-Competence Gap in Large Language Models: A Cognitive
Study
- Title(参考訳): 大規模言語モデルにおける信頼・コンピテンスギャップ : 認知的研究
- Authors: Aniket Kumar Singh, Suman Devkota, Bishal Lamichhane, Uttam Dhakal,
Chandra Dhakal
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたるパフォーマンスに対して、広く注目を集めている。
我々はこれらのモデルを多様なアンケートと実世界のシナリオで活用する。
この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
- 参考スコア(独自算出の注目度): 3.757390057317548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have acquired ubiquitous attention for their
performances across diverse domains. Our study here searches through LLMs'
cognitive abilities and confidence dynamics. We dive deep into understanding
the alignment between their self-assessed confidence and actual performance. We
exploit these models with diverse sets of questionnaires and real-world
scenarios and extract how LLMs exhibit confidence in their responses. Our
findings reveal intriguing instances where models demonstrate high confidence
even when they answer incorrectly. This is reminiscent of the Dunning-Kruger
effect observed in human psychology. In contrast, there are cases where models
exhibit low confidence with correct answers revealing potential underestimation
biases. Our results underscore the need for a deeper understanding of their
cognitive processes. By examining the nuances of LLMs' self-assessment
mechanism, this investigation provides noteworthy revelations that serve to
advance the functionalities and broaden the potential applications of these
formidable language models.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインのパフォーマンスにおいて、ユビキタスな注目を集めています。
本研究はLLMの認知能力と信頼性のダイナミクスを探索する。
私たちは、自己評価された信頼と実際のパフォーマンスの整合性について深く理解しています。
我々は,これらのモデルを多様なアンケートや実世界のシナリオを用いて活用し,LLMの反応に対する信頼感を抽出する。
この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
これは人間の心理学で観察されたダンニング・クルーガー効果を思い出させる。
対照的に、モデルが正しい回答で低い信頼を示す場合があり、潜在的な過小評価バイアスが明らかである。
我々の結果は、認知過程のより深い理解の必要性を浮き彫りにした。
LLMの自己評価機構のニュアンスを調べることで,機能の向上と,これらの強迫性のある言語モデルの適用可能性の拡大に役立つ,注目すべき発見を提供する。
関連論文リスト
- Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence? [26.69630281310365]
大きな言語モデル (LLM) は、質問が内部知識境界を超えると幻覚を引き起こす。
LLMの知識境界に対する認識に関する既存の研究は、通常、生成されたトークンの確率またはモデルの応答に対する信頼度として言語化された信頼のいずれかを使用する。
論文 参考訳(メタデータ) (2024-08-19T08:01:11Z) - Self-Cognition in Large Language Models: An Exploratory Study [77.47074736857726]
本稿では,Large Language Models(LLMs)における自己認識の先駆的研究を行う。
まず,LLMが自己認識を示す場所を評価するために,自己認識指導のプールを構築した。
モデルサイズ, トレーニングデータ品質, 自己認識レベルとの間には, 正の相関関係が認められた。
論文 参考訳(メタデータ) (2024-07-01T17:52:05Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Evaluating Subjective Cognitive Appraisals of Emotions from Large
Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。
CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文 参考訳(メタデータ) (2023-10-22T19:12:17Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。