論文の概要: Beyond One-shot: AI Agents for Learning in Field Experiments
- arxiv url: http://arxiv.org/abs/2606.02458v1
- Date: Mon, 01 Jun 2026 16:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.503183
- Title: Beyond One-shot: AI Agents for Learning in Field Experiments
- Title(参考訳): ワンショットを超えて: フィールド実験で学ぶAIエージェント
- Authors: Junjie Luo, Ritu Agarwal, Gordon Gao,
- Abstract要約: ツール強化エージェントAIが実験データから自動的に学習し、新たな介入を生成できるかどうかを検討する。
我々の研究は、ツール強化AIが実験データから学習し、改善されたドメイン関連介入を生成することを示している。
- 参考スコア(独自算出の注目度): 1.8135456588838779
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Organizations routinely run experiments for A/B testing, yet the data generated from one experiment is underutilized to inform subsequent intervention design. Significant barriers exist to extracting actionable knowledge from prior experimental data to inform new interventions. We study whether tool-augmented agentic AI can automatically learn from experimental data to generate new interventions in subsequent experiments. Through two-stage field experiments in healthcare prescription messaging (693,139 patient visits), we compare a Human + Chatbot method (Stage 1: behavioral experts with conversational AI co-designing 13 message variants, 444,691 patient visits) against a Tool-Augmented Agentic AI method (Stage 2: AI autonomously extracting principles from Stage 1 data to generate 17 new variants, 248,448 patient visits). The Agentic AI method, equipped with analytical tools, structured Data-Information-Knowledge-Wisdom (DIKW) reasoning agents, and transparent evidence chains, produces superior interventions: the best AI-generated message achieved a 69.8% CTR (+6.5 percentage points over baseline). Critically, our results suggest that the value comes from domain-specific experimental data, not from general reasoning ability: frontier LLMs operating without experimental data failed to predict which interventions would succeed. The field experiments also revealed that general-purpose behavioral theories used for intervention design do not extend uniformly to specific healthcare contexts, motivating an agentic AI approach to theory audits at field-experiment scale. Our research shows that tool-augmented AI can learn from experimental data and generate improved domain-relevant interventions, transforming behavioral experimentation from one-shot evaluation into a scalable system for cumulative design learning.
- Abstract(参考訳): 組織は定期的にA/Bテストの試験を実行するが、ある実験から生成されたデータは、その後の介入設計を知らせるために使われていない。
新しい介入を知らせるために、事前の実験データから実行可能な知識を抽出するために重要な障壁が存在する。
ツール強化エージェントAIは、実験データから自動的に学習し、その後の実験で新たな介入を生成することができるかを検討する。
医療処方薬メッセージングの2段階の実験(693,139人の患者訪問)を通じて、Human + Chatbotメソッド(Stage 1: 会話型AIによる行動専門家、13のメッセージ変種、444,691人の患者訪問)とツール強化エージェントAIメソッド(Stage 2: AIがStage 1データから自主的に原理を抽出して17の新しい変種、248,448人の患者訪問を生成する)を比較した。
エージェントAI手法は、分析ツール、構造化されたデータ情報知識・知恵(DIKW)推論エージェント、透明なエビデンスチェーンを備え、優れた介入をもたらす。
以上の結果から,実験データを持たないフロンティアLSMは,どの介入が成功するか予測できなかった。
フィールド実験では、介入設計に使用される汎用行動理論が、特定の医療コンテキストに一様に拡張されず、現場実験スケールで理論監査を行うエージェントAIアプローチを動機付けていることも明らかにした。
我々の研究は、ツール強化AIが実験データから学習し、改善されたドメイン関連介入を生成することを示し、行動実験をワンショット評価から累積的な設計学習のためのスケーラブルなシステムに変換する。
関連論文リスト
- AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation [28.790523063833376]
AutoScientistsは、長期的な計算科学実験のためのAIエージェントの分散チームである。
エージェントは共有された実験状態を解釈し、実験計算を使用する前に、有望な仮説、批判的な提案に関するチームに自己組織化する。
一致した実験予算の下で、AutoScientistsは、バイオメディカル機械学習、言語モデルトレーニング最適化、タンパク質の適合性予測など、AIエージェントを改良する。
論文 参考訳(メタデータ) (2026-05-27T15:56:12Z) - Towards a Medical AI Scientist [73.6056699962416]
私たちは、臨床自律研究に特化した最初の自律的な研究フレームワークである、メディカルAIサイエンティストを紹介します。
このフレームワークは3つの研究モード、すなわち論文ベースの再現、文学にインスパイアされた革新、タスク駆動探索で動作する。
本システムでは,提案手法と実装の密接な整合性を実現するとともに,実行可能実験において極めて高い成功率を示す。
論文 参考訳(メタデータ) (2026-03-30T15:37:25Z) - Transforming Behavioral Neuroscience Discovery with In-Context Learning and AI-Enhanced Tensor Methods [5.319819085855185]
私たちは、チーム内のドメインの専門家が実験データから洞察を得られるように、変革と加速するために設計されたAI強化パイプラインの例を紹介します。
手元にある応用は行動神経科学の分野において、マウスの恐怖の一般化を研究することである。
ドメインエキスパートがAIモデルのトレーニングや微調整を必要とせず、パイプラインの一部を自動化するのに適したインターフェースとして、ICL(In-Context Learning)の新たなパラダイムを特定します。
論文 参考訳(メタデータ) (2026-02-19T02:47:46Z) - Measuring skill-based uplift from AI in a real biological laboratory [0.0]
我々は,AI推論モデルへのアクセスによって引き起こされるEmphskillsベースの隆起の大きさを実証的に測定しようとしたパイロット研究の結果を報告する。
これらの結果は,AIとグローバルバイオセキュリティの進化的関係に関する今後の研究の文脈において論じる。
論文 参考訳(メタデータ) (2025-10-29T16:34:57Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Leveraging AI to Accelerate Medical Data Cleaning: A Comparative Study of AI-Assisted vs. Traditional Methods [3.2666593942117688]
Octoziは、大規模な言語モデルとドメイン固有性を組み合わせて医療データレビューを変換する人工知能支援プラットフォームである。
代表的な第3相腫瘍学試験の経済分析により、潜在的コスト削減は510万ドルであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T15:49:32Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Pitfalls in Experiments with DNN4SE: An Analysis of the State of the
Practice [0.7614628596146599]
我々は、ソフトウェアエンジニアリングのプレミア会場で発行された55の論文に現れるディープニューラルネットワークに依存する技術を用いて、194の実験を行い、マッピング研究を実施します。
以上の結果から,ACMアーティファクトバッジを受信した者を含む実験の大部分が,その信頼性に疑問を呈する根本的な限界があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T09:55:48Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。