Fugu-MT 論文翻訳(概要): Do Large Language Models Learn Human-Like Strategic Preferences?

論文の概要: Do Large Language Models Learn Human-Like Strategic Preferences?

arxiv url: http://arxiv.org/abs/2404.08710v1
Date: Thu, 11 Apr 2024 19:13:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 19:02:07.997797
Title: Do Large Language Models Learn Human-Like Strategic Preferences?
Title（参考訳）: 大規模言語モデルは人間のような戦略的嗜好を学ぶか?
Authors: Jesse Roberts, Kyle Moore, Doug Fisher,
Abstract要約: われわれは,SolarとMistralが,囚人のジレンマにおいて人間と整合した,安定した価値に基づく嗜好を示すことを示した。モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. We show that Solar and Mistral exhibit stable value-based preference consistent with human in the prisoner's dilemma, including stake-size effect, and traveler's dilemma, including penalty-size effect. We establish a relationship between model size, value based preference, and superficiality. Finally, we find that models that tend to be less brittle were trained with sliding window attention. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.
Abstract（参考訳）: 我々は, LLM が経験的結果と比較して, 戦略的シナリオにおける人間的嗜好判断を学習するかどうかを評価する。太陽とミストラルは、受刑者のジレンマや旅行者のジレンマなど、受刑者のジレンマと一致した安定な価値に基づく嗜好を示す。モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。最後に、脆さが少ない傾向にあるモデルが、スライディングウインドウの注意で訓練されていることを発見した。また,旅行者のジレンマにおいて,任意のLLMから嗜好関係を構築するための新しい手法と,人間の行動に関する仮説を支持する。

関連論文リスト

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。 ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文参考訳（メタデータ） (2024-10-09T15:02:34Z)
A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文参考訳（メタデータ） (2024-06-17T03:52:51Z)
Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文参考訳（メタデータ） (2024-03-29T15:58:46Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文参考訳（メタデータ） (2023-12-12T16:17:15Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
A density estimation perspective on learning from pairwise human preferences [32.64330423345252]
選好行動分布方程式を用いて定義された生成過程の族に対して、ペアの選好に対して報酬関数を訓練することにより、アノテータの暗黙の選好分布を効果的にモデル化できることが示される。アノテーションの誤用(annotator misspecification) - アノテーションの振る舞いに関する誤ったモデリング仮定が作成され、不適応なモデルが生じる、失敗事例について議論し、提示する。
論文参考訳（メタデータ） (2023-11-23T17:20:36Z)
Can LLMs Capture Human Preferences? [5.683832910692926]
本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
論文参考訳（メタデータ） (2023-05-04T03:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。