論文の概要: Large Language Models are overconfident and amplify human bias
- arxiv url: http://arxiv.org/abs/2505.02151v1
- Date: Sun, 04 May 2025 15:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.453015
- Title: Large Language Models are overconfident and amplify human bias
- Title(参考訳): 大規模言語モデルは過度に信頼され、人間の偏見を増幅する
- Authors: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette,
- Abstract要約: 大規模言語モデル(LLM)は社会のあらゆる側面に革命をもたらしている。
ヒューマンアセスメントや推論の代用として、問題解決タスクでの利用が増えている。
LLMが最も広く普及している人間の偏見の1つ、過信を継承するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.10713888959520208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and thus prone to learn human biases. One of the most widespread human biases is overconfidence. We examine whether LLMs inherit this bias. We automatically construct reasoning problems with known ground truths, and prompt LLMs to assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- Abstract(参考訳): 大規模言語モデル(LLM)は社会のあらゆる側面に革命をもたらしている。
ヒューマンアセスメントや推論の代用として、問題解決タスクでの利用が増えている。
LLMは人間が書くものに基づいて訓練されており、それによって人間のバイアスを学習する傾向がある。
最も広範な人間の偏見の1つは、過信である。
LLMがこのバイアスを継承するかどうかを検討する。
我々は,既知の真理を用いて推論問題を自動的に構築し,人間の実験において類似したプロトコルに密接に従って,LLMに対して回答の信頼性を評価するよう促す。
私たちが調査した5つのLCMはすべて過信であり、その答えが20%から60%の確率を過信しているのです。
人間はより高度なLSMと同様の精度を持つが、過信ははるかに低い。
人間とLLMも同様に、正解を確信する質問に偏っているが、両者の間に重要な違いが現れる。
また, LLM入力が人間の意思決定にあいまいな影響を及ぼすことが示される: LLM入力は精度を向上させるが, 回答の過度な信頼度を2倍以上にする。
関連論文リスト
- LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。
驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。
このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - Limits of Large Language Models in Debating Humans [0.0]
大規模言語モデル(LLM)を用いて議論するエージェントの限界を厳格に検証する。
エージェントは、人間よりも議論のトピックに溶け込み、集中し、すべてのプレイヤーの生産性を向上させることができることがわかった。
しかし、人間は他の人間ほど説得力も自信も持たず、私たちが収集した人間とエージェントの行動の指標は、互いに大きく異なっています。
論文 参考訳(メタデータ) (2024-02-06T03:24:27Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。