論文の概要: Can LLMs Capture Human Preferences?
- arxiv url: http://arxiv.org/abs/2305.02531v6
- Date: Thu, 29 Feb 2024 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-02 00:36:43.404934
- Title: Can LLMs Capture Human Preferences?
- Title(参考訳): LLMは人間の嗜好を捉えることができるか?
- Authors: Ali Goli, Amandeep Singh
- Abstract要約: 本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
- 参考スコア(独自算出の注目度): 5.683832910692926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the viability of Large Language Models (LLMs), specifically
OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting
preferences, with a focus on intertemporal choices. Leveraging the extensive
literature on intertemporal discounting for benchmarking, we examine responses
from LLMs across various languages and compare them to human responses,
exploring preferences between smaller, sooner, and larger, later rewards. Our
findings reveal that both GPT models demonstrate less patience than humans,
with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike
human decision-makers. Though GPT-4 does not display lexicographic preferences,
its measured discount rates are still considerably larger than those found in
humans. Interestingly, GPT models show greater patience in languages with weak
future tense references, such as German and Mandarin, aligning with existing
literature that suggests a correlation between language structure and
intertemporal preferences. We demonstrate how prompting GPT to explain its
decisions, a procedure we term "chain-of-thought conjoint," can mitigate, but
does not eliminate, discrepancies between LLM and human responses. While
directly eliciting preferences using LLMs may yield misleading results,
combining chain-of-thought conjoint with topic modeling aids in hypothesis
generation, enabling researchers to explore the underpinnings of preferences.
Chain-of-thought conjoint provides a structured framework for marketers to use
LLMs to identify potential attributes or factors that can explain preference
heterogeneity across different customers and contexts.
- Abstract(参考訳): 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。
ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。
GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。
興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。
gptが意思決定をいかに促すかを実証し、我々が「思考の連鎖」と呼ぶ手続きは、llmと人間の反応の相違を緩和するが排除しない。
LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。
チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。
関連論文リスト
- Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Do Large Language Models Learn Human-Like Strategic Preferences? [0.0]
LLMは、戦略的シナリオにおいて人間のような選好判断をすることを学ぶ。
太陽とミストラルは、人間と一致した安定な値に基づく嗜好を示す。
論文 参考訳(メタデータ) (2024-04-11T19:13:24Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for
GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。