論文の概要: Accelerating Social Science Research via Agentic Hypothesization and Experimentation
- arxiv url: http://arxiv.org/abs/2602.07983v1
- Date: Sun, 08 Feb 2026 14:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.904793
- Title: Accelerating Social Science Research via Agentic Hypothesization and Experimentation
- Title(参考訳): エージェント仮説と実験による社会科学研究の加速
- Authors: Jishu Sen Gupta, Harini SI, Somesh Kumar Singh, Syed Mohamad Tawseeq, Yaman Kumar Singla, David Doermann, Rajiv Ratn Shah, Balaji Krishnamurthy,
- Abstract要約: ExPERIGENは、ベイズ最適化によって2相探索にインスパイアされたエンドツーエンド発見を運用するフレームワークである。
より統計的に有意な仮説が2~4倍の確率で発見され、従来の手法よりも7~17%の確率で予測できる。
LLM産生仮説の最初のA/B試験を行い, 統計的に有意な結果を示した。
- 参考スコア(独自算出の注目度): 33.55093074029515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven social science research is inherently slow, relying on iterative cycles of observation, hypothesis generation, and experimental validation. While recent data-driven methods promise to accelerate parts of this process, they largely fail to support end-to-end scientific discovery. To address this gap, we introduce EXPERIGEN, an agentic framework that operationalizes end-to-end discovery through a Bayesian optimization inspired two-phase search, in which a Generator proposes candidate hypotheses and an Experimenter evaluates them empirically. Across multiple domains, EXPERIGEN consistently discovers 2-4x more statistically significant hypotheses that are 7-17 percent more predictive than prior approaches, and naturally extends to complex data regimes including multimodal and relational datasets. Beyond statistical performance, hypotheses must be novel, empirically grounded, and actionable to drive real scientific progress. To evaluate these qualities, we conduct an expert review of machine-generated hypotheses, collecting feedback from senior faculty. Among 25 reviewed hypotheses, 88 percent were rated moderately or strongly novel, 70 percent were deemed impactful and worth pursuing, and most demonstrated rigor comparable to senior graduate-level research. Finally, recognizing that ultimate validation requires real-world evidence, we conduct the first A/B test of LLM-generated hypotheses, observing statistically significant results with p less than 1e-6 and a large effect size of 344 percent.
- Abstract(参考訳): データ駆動型社会科学の研究は本質的に遅く、観察、仮説生成、実験的検証の反復サイクルに依存している。
最近のデータ駆動方式は、このプロセスの一部を加速するが、エンドツーエンドの科学的発見をほとんどサポートしない。
このギャップに対処するために,ベイズ最適化によるエンドツーエンド発見を運用するエージェントフレームワークであるEXPERIGENを紹介した。
複数のドメインにまたがって、EXPERIGENは、従来のアプローチよりも7-17パーセント高い統計的に重要な仮説を継続的に発見し、マルチモーダルおよびリレーショナルデータセットを含む複雑なデータ構造に自然に拡張する。
統計的性能の他に、仮説は斬新で、経験的に基礎付けられ、実際の科学的進歩を促進するために実行可能でなければならない。
これらの特性を評価するため、我々は機械による仮説のエキスパートレビューを行い、学部長からのフィードバックを収集する。
評価された仮説のうち、88%は中等度または強烈に評価され、70%は影響を受け、追求に値するとされ、そして最も実証されたのは上級レベルの研究に匹敵する厳密さであった。
最後に、最終的な検証には実世界の証拠が必要であると認識し、1e-6未満のpと大きな効果サイズで統計的に有意な結果が観察され、最初のALM生成仮説のA/Bテストを行う。
関連論文リスト
- Principle-Evolvable Scientific Discovery via Uncertainty Minimization [9.216546947535244]
科学発見をベイズ最適化として扱う原理進化可能なフレームワークであるPiEvoについて述べる。
PiEvoのソリューションの平均品質は90.81%93.15%に達し、最先端よりも29.7%31.1%向上している。
論文 参考訳(メタデータ) (2026-02-06T07:19:27Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - HARPA: A Testability-Driven, Literature-Grounded Framework for Research Ideation [29.9491787481972]
HARPAは科学的文献で実証可能な仮説を生成するためのツールである。
評価の結果,HARPAが生成する仮説駆動型研究提案は,強力なベースラインAI-Researcherと相容れない性能を示した。
ASDエージェント(CodeScientist)でテストすると、HARPAはより成功した実行(40のうち20対11)と少ない障害(16対21対40)を生み出した。
論文 参考訳(メタデータ) (2025-10-01T07:52:19Z) - Bayes-Entropy Collaborative Driven Agents for Research Hypotheses Generation and Optimization [4.469102316542763]
本稿では,HypoAgentsと呼ばれるマルチエージェント協調フレームワークを提案する。
多様性のサンプリングを通じて仮説を生成し、事前の信念を確立する。
その後、外部文献の証拠収集にRAG(erieval-augmented generation)を採用している。
情報エントロピー$H = - sum p_ilog p_i$ を用いて高不確かさ仮説を特定し、それらを積極的に洗練する。
論文 参考訳(メタデータ) (2025-08-03T13:05:32Z) - Open-ended Scientific Discovery via Bayesian Surprise [63.26412847240136]
AutoDSは、ベイジアン・サプライズを用いた科学探査を駆動する、オープンエンドの科学的発見の方法である。
我々はAutoDSを、生物学、経済学、金融学、行動科学といった21の領域にまたがる実世界のデータセットにまたがるデータ駆動ディスカバリの設定で評価する。
論文 参考訳(メタデータ) (2025-06-30T22:53:59Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - Literature Meets Data: A Synergistic Approach to Hypothesis Generation [24.98928229927995]
本研究では,文献に基づく洞察とデータを組み合わせて仮説生成を行う手法を開発した。
また,人間の意思決定を支援するためのLLM生成仮説の有用性を評価するための最初の人的評価を行った。
論文 参考訳(メタデータ) (2024-10-22T18:00:00Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [58.05402364136958]
実験と観測を組み合わせた二重機械学習手法を提案する。
本フレームワークは, より軽度な仮定の下で, 外部の妥当性と無知性に対するファルシフィケーションテストを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。