論文の概要: Belief in the Machine: Investigating Epistemological Blind Spots of Language Models
- arxiv url: http://arxiv.org/abs/2410.21195v1
- Date: Mon, 28 Oct 2024 16:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:57.148475
- Title: Belief in the Machine: Investigating Epistemological Blind Spots of Language Models
- Title(参考訳): 機械における信念:言語モデルにおける認識論的盲点の調査
- Authors: Mirac Suzgun, Tayfun Gur, Federico Bianchi, Daniel E. Ho, Thomas Icard, Dan Jurafsky, James Zou,
- Abstract要約: 言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
- 参考スコア(独自算出の注目度): 51.63547465454027
- License:
- Abstract: As language models (LMs) become integral to fields like healthcare, law, and journalism, their ability to differentiate between fact, belief, and knowledge is essential for reliable decision-making. Failure to grasp these distinctions can lead to significant consequences in areas such as medical diagnosis, legal judgments, and dissemination of fake news. Despite this, current literature has largely focused on more complex issues such as theory of mind, overlooking more fundamental epistemic challenges. This study systematically evaluates the epistemic reasoning capabilities of modern LMs, including GPT-4, Claude-3, and Llama-3, using a new dataset, KaBLE, consisting of 13,000 questions across 13 tasks. Our results reveal key limitations. First, while LMs achieve 86% accuracy on factual scenarios, their performance drops significantly with false scenarios, particularly in belief-related tasks. Second, LMs struggle with recognizing and affirming personal beliefs, especially when those beliefs contradict factual data, which raises concerns for applications in healthcare and counseling, where engaging with a person's beliefs is critical. Third, we identify a salient bias in how LMs process first-person versus third-person beliefs, performing better on third-person tasks (80.7%) compared to first-person tasks (54.4%). Fourth, LMs lack a robust understanding of the factive nature of knowledge, namely, that knowledge inherently requires truth. Fifth, LMs rely on linguistic cues for fact-checking and sometimes bypass the deeper reasoning. These findings highlight significant concerns about current LMs' ability to reason about truth, belief, and knowledge while emphasizing the need for advancements in these areas before broad deployment in critical sectors.
- Abstract(参考訳): 言語モデル(LM)は、医療、法律、ジャーナリズムといった分野に不可欠なものとなり、事実、信念、知識を区別する能力は、信頼できる意思決定に不可欠である。
これらの区別を把握できないことは、医学的診断、法的判断、偽ニュースの拡散といった分野において重大な結果をもたらす可能性がある。
それにもかかわらず、現在の文献は心の理論のようなより複雑な問題に主に焦点を合わせており、より基本的な疫学的な課題を見下ろしている。
本研究は, GPT-4, Claude-3, Llama-3を含む現代のLMの疫学推論能力について, 13タスクにわたる13,000の質問からなる新しいデータセットKaBLEを用いて体系的に評価した。
私たちの結果は重要な限界を明らかにします。
第一に、LMは事実のシナリオで86%の精度を達成するが、その性能は、特に信念に関連したタスクにおいて、偽のシナリオで著しく低下する。
第二に、LMは個人的信念の認識と肯定に苦慮し、特にこれらの信念が事実データと矛盾する場合は、医療やカウンセリングの応用への関心を喚起する。
第3に、LMが第1対第3の信念をどのように処理し、第3のタスク (80.7%) において、第1のタスク (54.4%) よりも優れたパフォーマンスを発揮するかという点において、健全なバイアスを識別する。
第4に、LMは知識の事実的性質、すなわち知識が本質的に真理を必要とするという確固たる理解を欠いている。
第5に、LMは事実チェックに言語的手がかりを頼り、時には深い推論を回避します。
これらの知見は、重要な分野に広範囲に展開する前に、これらの領域における進歩の必要性を強調しながら、真実、信念、知識について推論する現在のLMの能力に関する重要な懸念を浮き彫りにしている。
関連論文リスト
- A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。
将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文 参考訳(メタデータ) (2024-09-27T14:34:54Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - Trustworthy Large Models in Vision: A Survey [8.566163225282724]
大規模モデル(LM)は、自然言語処理(NLP)やコンピュータビジョン(CV)など、ディープラーニングの様々な分野に革命をもたらした。
LMは、強力なパフォーマンスだが信頼できない振る舞いのために、学界や業界によってますます批判され、批判されている。
本調査では,1)人間の誤用,2)脆弱性,3)固有の問題,4)解釈可能性など,LMのビジョンにおける信頼性の高い使用を阻害する4つの懸念点を要約する。
本調査は,この分野に対する読者の理解を深め,人的期待とLMの整合性を高めるとともに,人類社会の災害というよりも,信頼性の高いLMを福祉として機能させることを期待する。
論文 参考訳(メタデータ) (2023-11-16T08:49:46Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。