論文の概要: Do Large Language Models Learn Human-Like Strategic Preferences?
- arxiv url: http://arxiv.org/abs/2404.08710v2
- Date: Wed, 02 Oct 2024 17:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:16:48.167663
- Title: Do Large Language Models Learn Human-Like Strategic Preferences?
- Title(参考訳): 大規模言語モデルは人間のような戦略的嗜好を学ぶか?
- Authors: Jesse Roberts, Kyle Moore, Doug Fisher,
- Abstract要約: LLMは、戦略的シナリオにおいて人間のような選好判断をすることを学ぶ。
太陽とミストラルは、人間と一致した安定な値に基づく嗜好を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. Solar and Mistral are shown to exhibit stable value-based preference consistent with humans and exhibit human-like preference for cooperation in the prisoner's dilemma (including stake-size effect) and traveler's dilemma (including penalty-size effect). We establish a relationship between model size, value-based preference, and superficiality. Finally, results here show that models tending to be less brittle have relied on sliding window attention suggesting a potential link. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.
- Abstract(参考訳): 本稿では, LLMが経験的結果と比較して, 戦略的シナリオにおける人間的な嗜好判断を学習するかどうかを評価する。
太陽とミストラルは、人間と一致した安定な価値に基づく嗜好を示し、囚人のジレンマ(ステストサイズ効果を含む)と旅行者のジレンマ(ペナルティサイズ効果を含む)で協力する人間のような嗜好を示す。
我々は,モデルのサイズ,価値に基づく嗜好,および超現実性の関係を確立する。
最後に、この結果から、モデルの脆さが低い傾向は、潜在的なリンクを示唆するスライディングウィンドウアテンションに依存していることが分かる。
また,旅行者のジレンマにおいて,任意のLLMから嗜好関係を構築するための新しい手法と,人間の行動に関する仮説を支持する。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。
特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文 参考訳(メタデータ) (2024-03-29T15:58:46Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - A density estimation perspective on learning from pairwise human
preferences [32.64330423345252]
選好行動分布方程式を用いて定義された生成過程の族に対して、ペアの選好に対して報酬関数を訓練することにより、アノテータの暗黙の選好分布を効果的にモデル化できることが示される。
アノテーションの誤用(annotator misspecification) - アノテーションの振る舞いに関する誤ったモデリング仮定が作成され、不適応なモデルが生じる、失敗事例について議論し、提示する。
論文 参考訳(メタデータ) (2023-11-23T17:20:36Z) - Can LLMs Capture Human Preferences? [5.683832910692926]
本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
論文 参考訳(メタデータ) (2023-05-04T03:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。