論文の概要: Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function
- arxiv url: http://arxiv.org/abs/2406.01382v1
- Date: Mon, 3 Jun 2024 14:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.247043
- Title: Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function
- Title(参考訳): 大規模言語モデルは人々の期待通りに機能するか? : 人間の一般化関数の測定
- Authors: Keyon Vafa, Ashesh Rambachan, Sendhil Mullainathan,
- Abstract要約: 大規模言語モデル(LLM)を多種多様な用途で評価する。
私たちは、これらのデプロイメント決定が人々によってなされる状況を考えます。
MMLUとBIG-Benchベンチマークから、79のタスクにまたがる一般化の例を19Kのデータセットで収集する。
- 参考スコア(独自算出の注目度): 3.7078759896522953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What makes large language models (LLMs) impressive is also what makes them hard to evaluate: their diversity of uses. To evaluate these models, we must understand the purposes they will be used for. We consider a setting where these deployment decisions are made by people, and in particular, people's beliefs about where an LLM will perform well. We model such beliefs as the consequence of a human generalization function: having seen what an LLM gets right or wrong, people generalize to where else it might succeed. We collect a dataset of 19K examples of how humans make generalizations across 79 tasks from the MMLU and BIG-Bench benchmarks. We show that the human generalization function can be predicted using NLP methods: people have consistent structured ways to generalize. We then evaluate LLM alignment with the human generalization function. Our results show that -- especially for cases where the cost of mistakes is high -- more capable models (e.g. GPT-4) can do worse on the instances people choose to use them for, exactly because they are not aligned with the human generalization function.
- Abstract(参考訳): 大きな言語モデル(LLM)を印象付けるのは、それらを評価するのが難しいことです。
これらのモデルを評価するためには、それらの目的を理解する必要がある。
我々は、これらのデプロイメント決定が人々によってなされる状況、特にLDMがうまく機能する場所についての人々の信念を考える。
我々は、人間の一般化関数の結果としてのそのような信念をモデル化する: LLMが正しいか間違っているかを見て、人々はそれが成功する可能性のある場所を一般化する。
MMLUとBIG-Benchベンチマークから、79のタスクにまたがる一般化の例を19Kのデータセットで収集する。
人間の一般化関数は NLP 法を用いて予測可能であることを示す。
次に,人間の一般化関数とLCMのアライメントを評価する。
我々の結果は、特にミスのコストが高い場合には、より有能なモデル(例えばGPT-4)は、人間の一般化関数に一致しないため、人々が使用するインスタンスに対して、より悪い結果をもたらすことを示しています。
関連論文リスト
- Large Language Models Assume People are More Rational than We Really are [10.857040292234984]
AIが人と効果的にコミュニケーションするためには、意思決定の仕方を理解する必要があります。
以前の実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようである。
人々の選択をシミュレートし、予測する場合は、実際にはそうではありません。
論文 参考訳(メタデータ) (2024-06-24T18:15:27Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations [62.61495090463084]
大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-17T17:41:47Z) - The Larger They Are, the Harder They Fail: Language Models do not
Recognize Identifier Swaps in Python [34.13276581200455]
大規模言語モデル(LLM)は、コード生成タスクにうまく適用されている。
デフォルト関数名がスワップされた場合、LLMは正しいPythonコードを生成することができないことを示す。
モデルのサイズが大きくなるにつれて、それらのいくつかは誤った予測に自信を持つようになる。
論文 参考訳(メタデータ) (2023-05-24T18:54:39Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。