論文の概要: The Challenge of Using LLMs to Simulate Human Behavior: A Causal
Inference Perspective
- arxiv url: http://arxiv.org/abs/2312.15524v1
- Date: Sun, 24 Dec 2023 16:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:38:23.203884
- Title: The Challenge of Using LLMs to Simulate Human Behavior: A Causal
Inference Perspective
- Title(参考訳): LLMを用いた人間の行動シミュレーションの課題--因果推論の視点から
- Authors: George Gui, Olivier Toubia
- Abstract要約: 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする驚くべき可能性を実証している。
本研究は,プロンプトに含まれる治療の変動が,不特定要因の変動を引き起こすことを示した。
この内在性問題を他の文脈に一般化する理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.32634122554913997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive potential to
simulate human behavior. Using a causal inference framework, we empirically and
theoretically analyze the challenges of conducting LLM-simulated experiments,
and explore potential solutions. In the context of demand estimation, we show
that variations in the treatment included in the prompt (e.g., price of focal
product) can cause variations in unspecified confounding factors (e.g., price
of competitors, historical prices, outside temperature), introducing
endogeneity and yielding implausibly flat demand curves. We propose a
theoretical framework suggesting this endogeneity issue generalizes to other
contexts and won't be fully resolved by merely improving the training data.
Unlike real experiments where researchers assign pre-existing units across
conditions, LLMs simulate units based on the entire prompt, which includes the
description of the treatment. Therefore, due to associations in the training
data, the characteristics of individuals and environments simulated by the LLM
can be affected by the treatment assignment. We explore two potential
solutions. The first specifies all contextual variables that affect both
treatment and outcome, which we demonstrate to be challenging for a
general-purpose LLM. The second explicitly specifies the source of treatment
variation in the prompt given to the LLM (e.g., by informing the LLM that the
store is running an experiment). While this approach only allows the estimation
of a conditional average treatment effect that depends on the specific
experimental design, it provides valuable directional results for exploratory
analysis.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間の行動をシミュレートする素晴らしい可能性を示している。
因果推論フレームワークを用いて, LLMシミュレーション実験の課題を実験的に理論的に分析し, 潜在的な解決策を探究する。
需要推定の文脈において, プロンプトに含まれる処理の変動(例えば, 焦点製品の価格)は, 特定の組み合わせ要因(例えば, 競合価格, 歴史的価格, 外部温度)の変動を引き起こし, 内在性を導入し, 明白な平坦な需要曲線をもたらす。
本稿では,この内在性の問題を他の文脈に一般化し,単にトレーニングデータを改善するだけでは完全には解決できないという理論的枠組みを提案する。
研究者が既存の単位を条件を越えて割り当てる実際の実験とは異なり、LLMは治療の説明を含むプロンプト全体に基づいて単位をシミュレートする。
したがって、トレーニングデータの関連性から、LSMによってシミュレーションされた個人や環境の特性が治療課題に影響される可能性がある。
潜在的な解決策を2つ探る。
第1に、治療と結果の両方に影響を与える文脈変数を指定し、汎用LLMでは困難であることを示す。
2つ目は、LSMに与えられたプロンプト(例えば、ストアが実験を行っていることをLSMに通知することで)の処理のバリエーションのソースを明確に指定する。
このアプローチは、特定の実験設計に依存する条件付き平均治療効果のみを推定できるが、探索分析に有用な方向的結果を与える。
関連論文リスト
- Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - From Values to Opinions: Predicting Human Behaviors and Stances Using
Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。
VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。
以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T02:18:10Z) - Counterfactual Prediction Under Selective Confounding [3.6860485638625673]
この研究は、全ての共同創設者が知られていない場合、バイナリ処理とその結果の間の因果推論を行うという課題に対処する。
我々は、希望する処置の下ですべての共同創設者を知るという要求を緩和し、選択的共起(Selective Confounding)と呼ぶ。
提案手法の有効性に関する理論的誤差境界と実証的証拠の両方を,実世界と実世界の子配置データを用いて提示する。
論文 参考訳(メタデータ) (2023-10-21T16:54:59Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Causal Inference under Data Restrictions [0.0]
この論文は、不確実性とデータ制限の下での現代の因果推論に焦点を当てている。
これには、ネオアジュバント臨床試験、分散データネットワーク、堅牢な個別化意思決定へのアプリケーションが含まれる。
論文 参考訳(メタデータ) (2023-01-20T20:14:32Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。