論文の概要: The Confidence-Competence Gap in Large Language Models: A Cognitive
Study
- arxiv url: http://arxiv.org/abs/2309.16145v1
- Date: Thu, 28 Sep 2023 03:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:08:01.200017
- Title: The Confidence-Competence Gap in Large Language Models: A Cognitive
Study
- Title(参考訳): 大規模言語モデルにおける信頼・コンピテンスギャップ : 認知的研究
- Authors: Aniket Kumar Singh, Suman Devkota, Bishal Lamichhane, Uttam Dhakal,
Chandra Dhakal
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたるパフォーマンスに対して、広く注目を集めている。
我々はこれらのモデルを多様なアンケートと実世界のシナリオで活用する。
この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
- 参考スコア(独自算出の注目度): 3.757390057317548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have acquired ubiquitous attention for their
performances across diverse domains. Our study here searches through LLMs'
cognitive abilities and confidence dynamics. We dive deep into understanding
the alignment between their self-assessed confidence and actual performance. We
exploit these models with diverse sets of questionnaires and real-world
scenarios and extract how LLMs exhibit confidence in their responses. Our
findings reveal intriguing instances where models demonstrate high confidence
even when they answer incorrectly. This is reminiscent of the Dunning-Kruger
effect observed in human psychology. In contrast, there are cases where models
exhibit low confidence with correct answers revealing potential underestimation
biases. Our results underscore the need for a deeper understanding of their
cognitive processes. By examining the nuances of LLMs' self-assessment
mechanism, this investigation provides noteworthy revelations that serve to
advance the functionalities and broaden the potential applications of these
formidable language models.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインのパフォーマンスにおいて、ユビキタスな注目を集めています。
本研究はLLMの認知能力と信頼性のダイナミクスを探索する。
私たちは、自己評価された信頼と実際のパフォーマンスの整合性について深く理解しています。
我々は,これらのモデルを多様なアンケートや実世界のシナリオを用いて活用し,LLMの反応に対する信頼感を抽出する。
この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
これは人間の心理学で観察されたダンニング・クルーガー効果を思い出させる。
対照的に、モデルが正しい回答で低い信頼を示す場合があり、潜在的な過小評価バイアスが明らかである。
我々の結果は、認知過程のより深い理解の必要性を浮き彫りにした。
LLMの自己評価機構のニュアンスを調べることで,機能の向上と,これらの強迫性のある言語モデルの適用可能性の拡大に役立つ,注目すべき発見を提供する。
関連論文リスト
- Multimodal Large Language Models to Support Real-World Fact-Checking [87.84266975165305]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of
Large Language Models [24.60203307672918]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via
Self-Evaluation [75.01017649868614]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Evaluating Subjective Cognitive Appraisals of Emotions from Large
Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。
CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文 参考訳(メタデータ) (2023-10-22T19:12:17Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。