論文の概要: Simulating Field Experiments with Large Language Models
- arxiv url: http://arxiv.org/abs/2408.09682v1
- Date: Mon, 19 Aug 2024 03:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:44:03.241002
- Title: Simulating Field Experiments with Large Language Models
- Title(参考訳): 大規模言語モデルによるフィールド実験のシミュレーション
- Authors: Yaoyu Chen, Yuheng Hu, Yingda Lu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevailing large language models (LLMs) are capable of human responses simulation through its unprecedented content generation and reasoning abilities. However, it is not clear whether and how to leverage LLMs to simulate field experiments. In this paper, we propose and evaluate two prompting strategies: the observer mode that allows a direct prediction on main conclusions and the participant mode that simulates distributions of responses from participants. Using this approach, we examine fifteen well cited field experimental papers published in INFORMS and MISQ, finding encouraging alignments between simulated experimental results and the actual results in certain scenarios. We further identify topics of which LLMs underperform, including gender difference and social norms related research. Additionally, the automatic and standardized workflow proposed in this paper enables the possibility of a large-scale screening of more papers with field experiments. This paper pioneers the utilization of large language models (LLMs) for simulating field experiments, presenting a significant extension to previous work which focused solely on lab environments. By introducing two novel prompting strategies, observer and participant modes, we demonstrate the ability of LLMs to both predict outcomes and replicate participant responses within complex field settings. Our findings indicate a promising alignment with actual experimental results in certain scenarios, achieving a stimulation accuracy of 66% in observer mode. This study expands the scope of potential applications for LLMs and illustrates their utility in assisting researchers prior to engaging in expensive field experiments. Moreover, it sheds light on the boundaries of LLMs when used in simulating field experiments, serving as a cautionary note for researchers considering the integration of LLMs into their experimental toolkit.
- Abstract(参考訳): 一般的な大規模言語モデル(LLM)は、前例のないコンテンツ生成と推論能力を通じて人間の反応シミュレーションを行うことができる。
しかし、LLMをフィールド実験のシミュレートに利用するか、どのように利用するかは明らかになっていない。
本稿では,主結論の直接予測を可能にするオブザーバモードと,参加者からの応答の分布をシミュレートする参加者モードの2つのプロンプト戦略を提案し,評価する。
提案手法を用いて,INFORMS と MISQ に掲載されている15の文献を精査し,シミュレーション実験結果と実結果との整合性を確認した。
さらに、ジェンダー差や社会規範関連研究など、LLMの業績が低いトピックを同定する。
さらに,本論文で提案する自動標準化ワークフローにより,フィールド実験による論文の大規模スクリーニングが可能となる。
本稿では,フィールド実験をシミュレーションするための大規模言語モデル(LLM)の利用の先駆者であり,実験室環境にのみ焦点をあてた以前の研究の大幅な拡張を示す。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
本研究は,LLMの潜在的な応用範囲を広げ,高価なフィールド実験に携わる前に研究者を支援する上での有用性を示す。
さらに、フィールド実験を模擬する際、LLMの境界線に光を当て、LLMを実験ツールキットに統合することを検討する研究者にとって注意点となる。
関連論文リスト
- Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。
これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文 参考訳(メタデータ) (2024-09-30T12:42:25Z) - Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。
大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文 参考訳(メタデータ) (2024-06-01T02:41:59Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。
本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文 参考訳(メタデータ) (2023-12-13T11:02:19Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文 参考訳(メタデータ) (2022-06-24T14:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。