Fugu-MT 論文翻訳(概要): The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective

論文の概要: The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective

arxiv url: http://arxiv.org/abs/2312.15524v1
Date: Sun, 24 Dec 2023 16:32:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 17:38:23.203884
Title: The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective
Title（参考訳）: LLMを用いた人間の行動シミュレーションの課題--因果推論の視点から
Authors: George Gui, Olivier Toubia
Abstract要約: 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする驚くべき可能性を実証している。本研究は,プロンプトに含まれる治療の変動が,不特定要因の変動を引き起こすことを示した。この内在性問題を他の文脈に一般化する理論的枠組みを提案する。
参考スコア（独自算出の注目度）: 0.32634122554913997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive potential to simulate human behavior. Using a causal inference framework, we empirically and theoretically analyze the challenges of conducting LLM-simulated experiments, and explore potential solutions. In the context of demand estimation, we show that variations in the treatment included in the prompt (e.g., price of focal product) can cause variations in unspecified confounding factors (e.g., price of competitors, historical prices, outside temperature), introducing endogeneity and yielding implausibly flat demand curves. We propose a theoretical framework suggesting this endogeneity issue generalizes to other contexts and won't be fully resolved by merely improving the training data. Unlike real experiments where researchers assign pre-existing units across conditions, LLMs simulate units based on the entire prompt, which includes the description of the treatment. Therefore, due to associations in the training data, the characteristics of individuals and environments simulated by the LLM can be affected by the treatment assignment. We explore two potential solutions. The first specifies all contextual variables that affect both treatment and outcome, which we demonstrate to be challenging for a general-purpose LLM. The second explicitly specifies the source of treatment variation in the prompt given to the LLM (e.g., by informing the LLM that the store is running an experiment). While this approach only allows the estimation of a conditional average treatment effect that depends on the specific experimental design, it provides valuable directional results for exploratory analysis.
Abstract（参考訳）: 大規模言語モデル(llm)は、人間の行動をシミュレートする素晴らしい可能性を示している。因果推論フレームワークを用いて, LLMシミュレーション実験の課題を実験的に理論的に分析し, 潜在的な解決策を探究する。需要推定の文脈において, プロンプトに含まれる処理の変動(例えば, 焦点製品の価格)は, 特定の組み合わせ要因(例えば, 競合価格, 歴史的価格, 外部温度)の変動を引き起こし, 内在性を導入し, 明白な平坦な需要曲線をもたらす。本稿では,この内在性の問題を他の文脈に一般化し,単にトレーニングデータを改善するだけでは完全には解決できないという理論的枠組みを提案する。研究者が既存の単位を条件を越えて割り当てる実際の実験とは異なり、LLMは治療の説明を含むプロンプト全体に基づいて単位をシミュレートする。したがって、トレーニングデータの関連性から、LSMによってシミュレーションされた個人や環境の特性が治療課題に影響される可能性がある。潜在的な解決策を2つ探る。第1に、治療と結果の両方に影響を与える文脈変数を指定し、汎用LLMでは困難であることを示す。 2つ目は、LSMに与えられたプロンプト(例えば、ストアが実験を行っていることをLSMに通知することで)の処理のバリエーションのソースを明確に指定する。このアプローチは、特定の実験設計に依存する条件付き平均治療効果のみを推定できるが、探索分析に有用な方向的結果を与える。

関連論文リスト

Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。本稿では,実証的リスク最小化法(DEM)を提案する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文参考訳（メタデータ） (2024-10-03T00:25:40Z)
Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-27T15:13:06Z)
Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文参考訳（メタデータ） (2024-08-19T03:41:43Z)
Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-21T08:56:35Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
A Theory of LLM Sampling: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。このサンプリング行動が人間の意思決定と類似していることが示される。統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文参考訳（メタデータ） (2024-02-13T19:46:39Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)
From Values to Opinions: Predicting Human Behaviors and Stances Using Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。 VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文参考訳（メタデータ） (2023-10-27T02:18:10Z)
Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文参考訳（メタデータ） (2023-10-16T17:11:42Z)
Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文参考訳（メタデータ） (2023-03-03T21:41:01Z)
Sequential Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「生」の模倣を指して、昔ながらの格言である。本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
論文参考訳（メタデータ） (2022-08-12T13:53:23Z)
On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文参考訳（メタデータ） (2022-06-24T14:46:19Z)
Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文参考訳（メタデータ） (2021-11-02T12:33:42Z)
Simulation as Experiment: An Empirical Critique of Simulation Research on Recommender Systems [4.006331916849688]
我々は、レコメンダシステム(RS)の進化に関するシミュレーション研究は、概念的には経験的な実験的アプローチと似ていると論じる。経験的な分野に共通する標準やプラクティスを採用することで、シミュレーション研究者はこれらの弱点の多くを軽減することができる。
論文参考訳（メタデータ） (2021-07-29T21:05:01Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Generalization Bounds and Representation Learning for Estimation of Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文参考訳（メタデータ） (2020-01-21T10:16:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。