論文の概要: Relative Value Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.14530v1
- Date: Thu, 25 Jan 2024 21:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:40:54.373210
- Title: Relative Value Biases in Large Language Models
- Title(参考訳): 大規模言語モデルにおける相対値バイアス
- Authors: William M. Hayes, Nicolas Yax, Stefano Palminteri
- Abstract要約: 人間と動物の強化学習の研究は、過去に比較的良い結果をもたらす選択肢を好んだ。
本研究は,大規模言語モデルが同様のバイアスを示すかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studies of reinforcement learning in humans and animals have demonstrated a
preference for options that yielded relatively better outcomes in the past,
even when those options are associated with lower absolute reward. The present
study tested whether large language models would exhibit a similar bias. We had
gpt-4-1106-preview (GPT-4 Turbo) and Llama-2-70B make repeated choices between
pairs of options with the goal of maximizing payoffs. A complete record of
previous outcomes was included in each prompt. Both models exhibited relative
value decision biases similar to those observed in humans and animals. Making
relative comparisons among outcomes more explicit magnified the bias, whereas
prompting the models to estimate expected outcomes caused the bias to
disappear. These results have implications for the potential mechanisms that
contribute to context-dependent choice in human agents.
- Abstract(参考訳): 人間と動物の強化学習の研究は、たとえそれらの選択肢が絶対報酬が低い場合であっても、過去に比較的良い結果をもたらす選択肢の選好を示した。
本研究は,大規模言語モデルが同様のバイアスを示すかどうかを検証した。
gpt-4-1106-preview (GPT-4 Turbo) と Llama-2-70B は、対の選択肢を繰り返し選択し、支払いの最大化を目標とした。
前回の結果の完全な記録は各プロンプトに含まれていた。
どちらのモデルも人間や動物と同様の相対的な値決定バイアスを示した。
結果間の相対的な比較はバイアスを増大させる一方、モデルに期待される結果を予測するように促すとバイアスは消滅する。
これらの結果は、人間エージェントの文脈依存的な選択に寄与する潜在的なメカニズムに影響を及ぼす。
関連論文リスト
- Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Sample Selection Bias in Evaluation of Prediction Performance of Causal
Models [0.0]
因果モデルは、共起に関する証明不可能な仮定を行うため、検証が難しいことが知られている。
ケメレンの遺伝的摂動データセットを用いて,最近提案されたいくつかの因果関係モデルの予測性能を再検討した。
サンプル選択バイアスがモデル性能の重要な要因であることに気付きました。
論文 参考訳(メタデータ) (2021-06-03T15:15:30Z) - Understanding Prediction Discrepancies in Machine Learning Classifiers [4.940323406667406]
本稿では,同一データ上で訓練された最高の性能モデル群における予測誤差を分析することを提案する。
モデルに依存しないアルゴリズムであるDIGは,局所的に不一致を捉え,説明するために提案される。
論文 参考訳(メタデータ) (2021-04-12T13:42:50Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z) - Avoiding the Hypothesis-Only Bias in Natural Language Inference via
Ensemble Adversarial Training [27.848639511397725]
本研究では, 文表現において, 敵のアンサンブルを用いてバイアスを低減できることを示す。
このアプローチはより堅牢なNLIモデルを生成し、12のデータセットに一般化された以前の非バイアス処理よりも優れています。
論文 参考訳(メタデータ) (2020-04-16T17:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。