論文の概要: Can LLMs Capture Human Preferences?
- arxiv url: http://arxiv.org/abs/2305.02531v6
- Date: Thu, 29 Feb 2024 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-02 00:36:43.404934
- Title: Can LLMs Capture Human Preferences?
- Title(参考訳): LLMは人間の嗜好を捉えることができるか?
- Authors: Ali Goli, Amandeep Singh
- Abstract要約: 本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
- 参考スコア(独自算出の注目度): 5.683832910692926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the viability of Large Language Models (LLMs), specifically
OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting
preferences, with a focus on intertemporal choices. Leveraging the extensive
literature on intertemporal discounting for benchmarking, we examine responses
from LLMs across various languages and compare them to human responses,
exploring preferences between smaller, sooner, and larger, later rewards. Our
findings reveal that both GPT models demonstrate less patience than humans,
with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike
human decision-makers. Though GPT-4 does not display lexicographic preferences,
its measured discount rates are still considerably larger than those found in
humans. Interestingly, GPT models show greater patience in languages with weak
future tense references, such as German and Mandarin, aligning with existing
literature that suggests a correlation between language structure and
intertemporal preferences. We demonstrate how prompting GPT to explain its
decisions, a procedure we term "chain-of-thought conjoint," can mitigate, but
does not eliminate, discrepancies between LLM and human responses. While
directly eliciting preferences using LLMs may yield misleading results,
combining chain-of-thought conjoint with topic modeling aids in hypothesis
generation, enabling researchers to explore the underpinnings of preferences.
Chain-of-thought conjoint provides a structured framework for marketers to use
LLMs to identify potential attributes or factors that can explain preference
heterogeneity across different customers and contexts.
- Abstract(参考訳): 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。
ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。
GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。
興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。
gptが意思決定をいかに促すかを実証し、我々が「思考の連鎖」と呼ぶ手続きは、llmと人間の反応の相違を緩和するが排除しない。
LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。
チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。
関連論文リスト
- Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for
GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Active Preference Inference using Language Models and Probabilistic
Reasoning [15.198912276468198]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。
我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。
実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T09:58:54Z) - Large language models can enhance persuasion through linguistic feature
alignment [3.054681017071983]
本研究では,大規模言語モデル(LLM)が,金融業界における消費者の苦情に対するデータを用いた人的コミュニケーションに与える影響について検討する。
ChatGPT のリリース直後に LLM の利用が急増していることが判明した。
計算言語学的分析は、LLMsによる様々な言語的特徴の強化によって、正の相関が説明できることを示唆している。
論文 参考訳(メタデータ) (2023-11-28T04:07:34Z) - On the steerability of large language models toward data-driven personas [103.17413190093366]
協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするために,ソフトプロンプトモデルを学ぶ。
以上の結果から,本アルゴリズムはベースラインの収集よりも性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。