論文の概要: Do Large Language Models Learn Human-Like Strategic Preferences?
- arxiv url: http://arxiv.org/abs/2404.08710v1
- Date: Thu, 11 Apr 2024 19:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:02:07.997797
- Title: Do Large Language Models Learn Human-Like Strategic Preferences?
- Title(参考訳): 大規模言語モデルは人間のような戦略的嗜好を学ぶか?
- Authors: Jesse Roberts, Kyle Moore, Doug Fisher,
- Abstract要約: われわれは,SolarとMistralが,囚人のジレンマにおいて人間と整合した,安定した価値に基づく嗜好を示すことを示した。
モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. We show that Solar and Mistral exhibit stable value-based preference consistent with human in the prisoner's dilemma, including stake-size effect, and traveler's dilemma, including penalty-size effect. We establish a relationship between model size, value based preference, and superficiality. Finally, we find that models that tend to be less brittle were trained with sliding window attention. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.
- Abstract(参考訳): 我々は, LLM が経験的結果と比較して, 戦略的シナリオにおける人間的嗜好判断を学習するかどうかを評価する。
太陽とミストラルは、受刑者のジレンマや旅行者のジレンマなど、受刑者のジレンマと一致した安定な価値に基づく嗜好を示す。
モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。
最後に、脆さが少ない傾向にあるモデルが、スライディングウインドウの注意で訓練されていることを発見した。
また,旅行者のジレンマにおいて,任意のLLMから嗜好関係を構築するための新しい手法と,人間の行動に関する仮説を支持する。
関連論文リスト
- A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。
特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文 参考訳(メタデータ) (2024-03-29T15:58:46Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - A density estimation perspective on learning from pairwise human
preferences [32.64330423345252]
選好行動分布方程式を用いて定義された生成過程の族に対して、ペアの選好に対して報酬関数を訓練することにより、アノテータの暗黙の選好分布を効果的にモデル化できることが示される。
アノテーションの誤用(annotator misspecification) - アノテーションの振る舞いに関する誤ったモデリング仮定が作成され、不適応なモデルが生じる、失敗事例について議論し、提示する。
論文 参考訳(メタデータ) (2023-11-23T17:20:36Z) - Can LLMs Capture Human Preferences? [5.683832910692926]
本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
論文 参考訳(メタデータ) (2023-05-04T03:51:31Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。