Fugu-MT 論文翻訳(概要): Using LLMs to Model the Beliefs and Preferences of Targeted Populations

論文の概要: Using LLMs to Model the Beliefs and Preferences of Targeted Populations

arxiv url: http://arxiv.org/abs/2403.20252v1
Date: Fri, 29 Mar 2024 15:58:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:14:57.430482
Title: Using LLMs to Model the Beliefs and Preferences of Targeted Populations
Title（参考訳）: LLMを用いた目標人口の信念と嗜好のモデル化
Authors: Keiichi Namikoshi, Alex Filipowicz, David A. Shamma, Rumen Iliev, Candice L. Hogan, Nikos Arechiga,
Abstract要約: 本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
参考スコア（独自算出の注目度）: 4.0849074543032105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of aligning a large language model (LLM) to model the preferences of a human population. Modeling the beliefs, preferences, and behaviors of a specific population can be useful for a variety of different applications, such as conducting simulated focus groups for new products, conducting virtual surveys, and testing behavioral interventions, especially for interventions that are expensive, impractical, or unethical. Existing work has had mixed success using LLMs to accurately model human behavior in different contexts. We benchmark and evaluate two well-known fine-tuning approaches and evaluate the resulting populations on their ability to match the preferences of real human respondents on a survey of preferences for battery electric vehicles (BEVs). We evaluate our models against their ability to match population-wide statistics as well as their ability to match individual responses, and we investigate the role of temperature in controlling the trade-offs between these two. Additionally, we propose and evaluate a novel loss term to improve model performance on responses that require a numeric response.
Abstract（参考訳）: 本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。特定の集団の信念、嗜好、行動のモデル化は、新製品のシミュレートされたフォーカスグループの実行、バーチャルサーベイの実行、行動介入のテスト、特に高価で非現実的で非倫理的な介入など、様々な応用に有用である。既存の作業は、異なるコンテキストにおける人間の振る舞いを正確にモデル化するために、LLMを使用して混合的に成功している。電池電気自動車(BEV)の選好調査において,2つのよく知られた微調整手法のベンチマークと評価を行い,実際の人間の嗜好に合致する集団の評価を行った。本研究は, 人口統計の整合性, 個々の反応の整合性, および両者のトレードオフ制御における温度の役割について検討した。さらに,数値応答を必要とする応答に対するモデル性能を向上させるために,新しい損失項を提案し,評価する。

関連論文リスト

Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings [7.284860523651357]
我々は,大規模言語モデル(LLM)と実際の人間の行動の相違を,複数項目のアンケート設定で評価した。この枠組みを,様々な公的な調査において,人々の意見をシミュレートするための一般的な言語モデルに適用する。これにより、この言語モデルとテストされた人口との整合性に関する疑問が提起される。
論文参考訳（メタデータ） (2025-06-17T22:04:55Z)
Higher-Order Binding of Language Model Virtual Personas: a Study on Approximating Political Partisan Misperceptions [4.234771450043289]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする能力が高まっている。本稿では, マルチターンインタビュー文として, 合成ユーザバックストリーを用いた仮想ペルソナ構築手法を提案する。我々の生成したバックストリーは、より長く、細部が豊富であり、従来の方法と比較して、特定の個人を記述するのに一貫性がある。
論文参考訳（メタデータ） (2025-04-16T00:10:34Z)
Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。 LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文参考訳（メタデータ） (2025-02-22T16:25:33Z)
How Aligned are Generative Models to Humans in High-Stakes Decision-Making? [10.225573060836478]
大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
論文参考訳（メタデータ） (2024-10-20T19:00:59Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。 JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文参考訳（メタデータ） (2024-06-26T14:56:13Z)
Do Large Language Models Learn Human-Like Strategic Preferences? [0.0]
LLMは、戦略的シナリオにおいて人間のような選好判断をすることを学ぶ。太陽とミストラルは、人間と一致した安定な値に基づく嗜好を示す。
論文参考訳（メタデータ） (2024-04-11T19:13:24Z)
From Values to Opinions: Predicting Human Behaviors and Stances Using Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。 VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文参考訳（メタデータ） (2023-10-27T02:18:10Z)
Questioning the Survey Responses of Large Language Models [18.61486375469644]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,言語モデルの調査結果を批判的に調査する。モデル応答は、バイアスの順序付けとラベル付けによって制御され、体系的バイアスの調整後に持続しないモデル間のバリエーションが生じる。本研究は, モデルによる調査回答を, 個体群と同等に扱うことの注意を喚起するものである。
論文参考訳（メタデータ） (2023-06-13T17:48:27Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文参考訳（メタデータ） (2022-10-15T17:22:30Z)
Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文参考訳（メタデータ） (2022-02-21T17:58:07Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。逆生成したサンプルはドメイン適応時に使用される。その結果,本手法の有効性とタスクの一般性が確認された。
論文参考訳（メタデータ） (2021-01-13T03:20:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。