論文の概要: The Challenge of Using LLMs to Simulate Human Behavior: A Causal
Inference Perspective
- arxiv url: http://arxiv.org/abs/2312.15524v1
- Date: Sun, 24 Dec 2023 16:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:38:23.203884
- Title: The Challenge of Using LLMs to Simulate Human Behavior: A Causal
Inference Perspective
- Title(参考訳): LLMを用いた人間の行動シミュレーションの課題--因果推論の視点から
- Authors: George Gui, Olivier Toubia
- Abstract要約: 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする驚くべき可能性を実証している。
本研究は,プロンプトに含まれる治療の変動が,不特定要因の変動を引き起こすことを示した。
この内在性問題を他の文脈に一般化する理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.32634122554913997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive potential to
simulate human behavior. Using a causal inference framework, we empirically and
theoretically analyze the challenges of conducting LLM-simulated experiments,
and explore potential solutions. In the context of demand estimation, we show
that variations in the treatment included in the prompt (e.g., price of focal
product) can cause variations in unspecified confounding factors (e.g., price
of competitors, historical prices, outside temperature), introducing
endogeneity and yielding implausibly flat demand curves. We propose a
theoretical framework suggesting this endogeneity issue generalizes to other
contexts and won't be fully resolved by merely improving the training data.
Unlike real experiments where researchers assign pre-existing units across
conditions, LLMs simulate units based on the entire prompt, which includes the
description of the treatment. Therefore, due to associations in the training
data, the characteristics of individuals and environments simulated by the LLM
can be affected by the treatment assignment. We explore two potential
solutions. The first specifies all contextual variables that affect both
treatment and outcome, which we demonstrate to be challenging for a
general-purpose LLM. The second explicitly specifies the source of treatment
variation in the prompt given to the LLM (e.g., by informing the LLM that the
store is running an experiment). While this approach only allows the estimation
of a conditional average treatment effect that depends on the specific
experimental design, it provides valuable directional results for exploratory
analysis.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間の行動をシミュレートする素晴らしい可能性を示している。
因果推論フレームワークを用いて, LLMシミュレーション実験の課題を実験的に理論的に分析し, 潜在的な解決策を探究する。
需要推定の文脈において, プロンプトに含まれる処理の変動(例えば, 焦点製品の価格)は, 特定の組み合わせ要因(例えば, 競合価格, 歴史的価格, 外部温度)の変動を引き起こし, 内在性を導入し, 明白な平坦な需要曲線をもたらす。
本稿では,この内在性の問題を他の文脈に一般化し,単にトレーニングデータを改善するだけでは完全には解決できないという理論的枠組みを提案する。
研究者が既存の単位を条件を越えて割り当てる実際の実験とは異なり、LLMは治療の説明を含むプロンプト全体に基づいて単位をシミュレートする。
したがって、トレーニングデータの関連性から、LSMによってシミュレーションされた個人や環境の特性が治療課題に影響される可能性がある。
潜在的な解決策を2つ探る。
第1に、治療と結果の両方に影響を与える文脈変数を指定し、汎用LLMでは困難であることを示す。
2つ目は、LSMに与えられたプロンプト(例えば、ストアが実験を行っていることをLSMに通知することで)の処理のバリエーションのソースを明確に指定する。
このアプローチは、特定の実験設計に依存する条件付き平均治療効果のみを推定できるが、探索分析に有用な方向的結果を与える。
関連論文リスト
- Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。
カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。
本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-27T15:13:06Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。
以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。
テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - From Values to Opinions: Predicting Human Behaviors and Stances Using
Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。
VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。
以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T02:18:10Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。