論文の概要: Can LLMs Capture Intertemporal Preferences?
- arxiv url: http://arxiv.org/abs/2305.02531v5
- Date: Wed, 25 Oct 2023 22:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:19:16.026237
- Title: Can LLMs Capture Intertemporal Preferences?
- Title(参考訳): LLMは時間的嗜好を捉えることができるか?
- Authors: Ali Goli, Amandeep Singh
- Abstract要約: 本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
- 参考スコア(独自算出の注目度): 5.683832910692926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the viability of Large Language Models (LLMs), specifically
OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting
preferences, with a focus on intertemporal choices. Leveraging the extensive
literature on intertemporal discounting for benchmarking, we examine responses
from LLMs across various languages and compare them to human responses,
exploring preferences between smaller, sooner, and larger, later rewards. Our
findings reveal that both GPT models demonstrate less patience than humans,
with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike
human decision-makers. Though GPT-4 does not display lexicographic preferences,
its measured discount rates are still considerably larger than those found in
humans. Interestingly, GPT models show greater patience in languages with weak
future tense references, such as German and Mandarin, aligning with existing
literature that suggests a correlation between language structure and
intertemporal preferences. We demonstrate how prompting GPT to explain its
decisions, a procedure we term ``chain-of-thought conjoint," can mitigate, but
does not eliminate, discrepancies between LLM and human responses. While
directly eliciting preferences using LLMs may yield misleading results,
combining chain-of-thought conjoint with topic modeling aids in hypothesis
generation, enabling researchers to explore the underpinnings of preferences.
Chain-of-thought conjoint provides a structured framework for marketers to use
LLMs to identify potential attributes or factors that can explain preference
heterogeneity across different customers and contexts.
- Abstract(参考訳): 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。
ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。
GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。
興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。
gptがその決定をいかに促すかを実証するが、我々が ``chain-of-thought conjoint" と呼ぶ手順は、llmと人間の反応の相違を緩和するが排除しない。
LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。
チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。
関連論文リスト
- Do Large Language Models Learn Human-Like Strategic Preferences? [0.0]
われわれは,SolarとMistralが,囚人のジレンマにおいて人間と整合した,安定した価値に基づく嗜好を示すことを示した。
モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。
論文 参考訳(メタデータ) (2024-04-11T19:13:24Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for
GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Large language models can enhance persuasion through linguistic feature
alignment [3.054681017071983]
本研究では,大規模言語モデル(LLM)が,金融業界における消費者の苦情に対するデータを用いた人的コミュニケーションに与える影響について検討する。
ChatGPT のリリース直後に LLM の利用が急増していることが判明した。
計算言語学的分析は、LLMsによる様々な言語的特徴の強化によって、正の相関が説明できることを示唆している。
論文 参考訳(メタデータ) (2023-11-28T04:07:34Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。