Fugu-MT 論文翻訳(概要): Can LLMs Capture Human Preferences?

論文の概要: Can LLMs Capture Human Preferences?

arxiv url: http://arxiv.org/abs/2305.02531v6
Date: Thu, 29 Feb 2024 18:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-02 00:36:43.404934
Title: Can LLMs Capture Human Preferences?
Title（参考訳）: LLMは人間の嗜好を捉えることができるか?
Authors: Ali Goli, Amandeep Singh
Abstract要約: 本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
参考スコア（独自算出の注目度）: 5.683832910692926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the viability of Large Language Models (LLMs), specifically OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting preferences, with a focus on intertemporal choices. Leveraging the extensive literature on intertemporal discounting for benchmarking, we examine responses from LLMs across various languages and compare them to human responses, exploring preferences between smaller, sooner, and larger, later rewards. Our findings reveal that both GPT models demonstrate less patience than humans, with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike human decision-makers. Though GPT-4 does not display lexicographic preferences, its measured discount rates are still considerably larger than those found in humans. Interestingly, GPT models show greater patience in languages with weak future tense references, such as German and Mandarin, aligning with existing literature that suggests a correlation between language structure and intertemporal preferences. We demonstrate how prompting GPT to explain its decisions, a procedure we term "chain-of-thought conjoint," can mitigate, but does not eliminate, discrepancies between LLM and human responses. While directly eliciting preferences using LLMs may yield misleading results, combining chain-of-thought conjoint with topic modeling aids in hypothesis generation, enabling researchers to explore the underpinnings of preferences. Chain-of-thought conjoint provides a structured framework for marketers to use LLMs to identify potential attributes or factors that can explain preference heterogeneity across different customers and contexts.
Abstract（参考訳）: 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。 GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。 gptが意思決定をいかに促すかを実証し、我々が「思考の連鎖」と呼ぶ手続きは、llmと人間の反応の相違を緩和するが排除しない。 LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。

関連論文リスト

How Individual Traits and Language Styles Shape Preferences In Open-ended User-LLM Interaction: A Preliminary Study [32.53638485900923]
LLMの言語スタイルは確かにユーザの好みに影響を与えているが、どの言語スタイルがユーザーの好みにどのように影響するかは異なる。我々の今後の方向性は、まずこれらの制限に対処することであり、言語スタイル、個々の特徴、嗜好の間のより包括的な共同効果分析を可能にし、さらにこれらの変数とそれ以上の因果関係について検討する。
論文参考訳（メタデータ） (2025-04-23T20:14:03Z)
Assessing Large Language Models in Agentic Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。この研究は、このギャップに最初に対処する。複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文参考訳（メタデータ） (2025-02-25T08:07:42Z)
Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。 ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文参考訳（メタデータ） (2024-10-09T15:02:34Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文参考訳（メタデータ） (2024-06-17T03:52:51Z)
Do Large Language Models Learn Human-Like Strategic Preferences? [0.0]
LLMは、戦略的シナリオにおいて人間のような選好判断をすることを学ぶ。太陽とミストラルは、人間と一致した安定な値に基づく嗜好を示す。
論文参考訳（メタデータ） (2024-04-11T19:13:24Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文参考訳（メタデータ） (2024-02-22T13:25:17Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
On Reality and the Limits of Language Data: Aligning LLMs with Human Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文参考訳（メタデータ） (2022-08-25T10:21:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。