Fugu-MT 論文翻訳(概要): Simulating Field Experiments with Large Language Models

論文の概要: Simulating Field Experiments with Large Language Models

arxiv url: http://arxiv.org/abs/2408.09682v1
Date: Mon, 19 Aug 2024 03:41:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 17:44:03.241002
Title: Simulating Field Experiments with Large Language Models
Title（参考訳）: 大規模言語モデルによるフィールド実験のシミュレーション
Authors: Yaoyu Chen, Yuheng Hu, Yingda Lu,
Abstract要約: 本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
参考スコア（独自算出の注目度）: 0.6144680854063939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prevailing large language models (LLMs) are capable of human responses simulation through its unprecedented content generation and reasoning abilities. However, it is not clear whether and how to leverage LLMs to simulate field experiments. In this paper, we propose and evaluate two prompting strategies: the observer mode that allows a direct prediction on main conclusions and the participant mode that simulates distributions of responses from participants. Using this approach, we examine fifteen well cited field experimental papers published in INFORMS and MISQ, finding encouraging alignments between simulated experimental results and the actual results in certain scenarios. We further identify topics of which LLMs underperform, including gender difference and social norms related research. Additionally, the automatic and standardized workflow proposed in this paper enables the possibility of a large-scale screening of more papers with field experiments. This paper pioneers the utilization of large language models (LLMs) for simulating field experiments, presenting a significant extension to previous work which focused solely on lab environments. By introducing two novel prompting strategies, observer and participant modes, we demonstrate the ability of LLMs to both predict outcomes and replicate participant responses within complex field settings. Our findings indicate a promising alignment with actual experimental results in certain scenarios, achieving a stimulation accuracy of 66% in observer mode. This study expands the scope of potential applications for LLMs and illustrates their utility in assisting researchers prior to engaging in expensive field experiments. Moreover, it sheds light on the boundaries of LLMs when used in simulating field experiments, serving as a cautionary note for researchers considering the integration of LLMs into their experimental toolkit.
Abstract（参考訳）: 一般的な大規模言語モデル(LLM)は、前例のないコンテンツ生成と推論能力を通じて人間の反応シミュレーションを行うことができる。しかし、LLMをフィールド実験のシミュレートに利用するか、どのように利用するかは明らかになっていない。本稿では,主結論の直接予測を可能にするオブザーバモードと,参加者からの応答の分布をシミュレートする参加者モードの2つのプロンプト戦略を提案し,評価する。提案手法を用いて,INFORMS と MISQ に掲載されている15の文献を精査し,シミュレーション実験結果と実結果との整合性を確認した。さらに、ジェンダー差や社会規範関連研究など、LLMの業績が低いトピックを同定する。さらに,本論文で提案する自動標準化ワークフローにより,フィールド実験による論文の大規模スクリーニングが可能となる。本稿では,フィールド実験をシミュレーションするための大規模言語モデル(LLM)の利用の先駆者であり,実験室環境にのみ焦点をあてた以前の研究の大幅な拡張を示す。観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。本研究は,LLMの潜在的な応用範囲を広げ,高価なフィールド実験に携わる前に研究者を支援する上での有用性を示す。さらに、フィールド実験を模擬する際、LLMの境界線に光を当て、LLMを実験ツールキットに統合することを検討する研究者にとって注意点となる。

関連論文リスト

MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [93.64235254640967]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。詳細な科学的仮説発見の新たな課題を定めている。本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
論文参考訳（メタデータ） (2025-05-25T16:13:46Z)
MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.2992631982687]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文参考訳（メタデータ） (2025-05-23T13:24:50Z)
Predicting Field Experiments with Large Language Models [0.6144680854063939]
フィールド実験の結果を予測するための自動LLMベースのフレームワークを提案し,評価する。結果の分布はバイモーダルか高度に歪んでいるかのどちらかであることが判明した。この異常を更に調査することで、複雑な社会問題に関連するフィールド実験が予測性能に重大な課題をもたらすことが判明した。
論文参考訳（メタデータ） (2025-04-01T20:14:35Z)
Synthesizing Public Opinions with LLMs: Role Creation, Impacts, and the Future to eDemorcacy [5.92971970173011]
本稿では,世論データを合成する大規模言語モデルについて検討する。応答率の低下や非応答バイアスといった従来の調査手法の課題に対処する。本稿では,知識注入に基づく役割創出という新しい手法を紹介する。
論文参考訳（メタデータ） (2025-03-31T21:21:52Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
Evaluating Local and Cloud-Based Large Language Models for Simulating Consumer Choices in Energy Stated Preference Surveys [4.672157041593765]
本研究では、エネルギー関連SPサーベイにおける消費者選択をシミュレートする大規模言語モデルの能力について検討する。その結果, LLMの平均精度は48%まで向上するが, 実用化には不十分であることが示唆された。従来のSP選択が最も効果的な入力因子であるのに対して、因子の異なる長いプロンプトは精度を低下させる可能性がある。
論文参考訳（メタデータ） (2025-03-07T10:37:31Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文参考訳（メタデータ） (2024-09-30T12:42:25Z)
Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文参考訳（メタデータ） (2024-06-01T02:41:59Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。 LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文参考訳（メタデータ） (2024-04-06T20:02:20Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.32634122554913997]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする驚くべき可能性を実証している。本研究は,プロンプトに含まれる治療の変動が,不特定要因の変動を引き起こすことを示した。この内在性問題を他の文脈に一般化する理論的枠組みを提案する。
論文参考訳（メタデータ） (2023-12-24T16:32:35Z)
Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文参考訳（メタデータ） (2023-12-13T11:02:19Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文参考訳（メタデータ） (2023-03-03T21:41:01Z)
On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文参考訳（メタデータ） (2022-06-24T14:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。