論文の概要: Large Language Models are overconfident and amplify human bias
- arxiv url: http://arxiv.org/abs/2505.02151v1
- Date: Sun, 04 May 2025 15:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.453015
- Title: Large Language Models are overconfident and amplify human bias
- Title(参考訳): 大規模言語モデルは過度に信頼され、人間の偏見を増幅する
- Authors: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette,
- Abstract要約: 大規模言語モデル(LLM)は社会のあらゆる側面に革命をもたらしている。
ヒューマンアセスメントや推論の代用として、問題解決タスクでの利用が増えている。
LLMが最も広く普及している人間の偏見の1つ、過信を継承するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.10713888959520208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and thus prone to learn human biases. One of the most widespread human biases is overconfidence. We examine whether LLMs inherit this bias. We automatically construct reasoning problems with known ground truths, and prompt LLMs to assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- Abstract(参考訳): 大規模言語モデル(LLM)は社会のあらゆる側面に革命をもたらしている。
ヒューマンアセスメントや推論の代用として、問題解決タスクでの利用が増えている。
LLMは人間が書くものに基づいて訓練されており、それによって人間のバイアスを学習する傾向がある。
最も広範な人間の偏見の1つは、過信である。
LLMがこのバイアスを継承するかどうかを検討する。
我々は,既知の真理を用いて推論問題を自動的に構築し,人間の実験において類似したプロトコルに密接に従って,LLMに対して回答の信頼性を評価するよう促す。
私たちが調査した5つのLCMはすべて過信であり、その答えが20%から60%の確率を過信しているのです。
人間はより高度なLSMと同様の精度を持つが、過信ははるかに低い。
人間とLLMも同様に、正解を確信する質問に偏っているが、両者の間に重要な違いが現れる。
また, LLM入力が人間の意思決定にあいまいな影響を及ぼすことが示される: LLM入力は精度を向上させるが, 回答の過度な信頼度を2倍以上にする。
関連論文リスト
- LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。
驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。
このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Limits of Large Language Models in Debating Humans [0.0]
大規模言語モデル(LLM)を用いて議論するエージェントの限界を厳格に検証する。
エージェントは、人間よりも議論のトピックに溶け込み、集中し、すべてのプレイヤーの生産性を向上させることができることがわかった。
しかし、人間は他の人間ほど説得力も自信も持たず、私たちが収集した人間とエージェントの行動の指標は、互いに大きく異なっています。
論文 参考訳(メタデータ) (2024-02-06T03:24:27Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。