論文の概要: HLER: Human-in-the-Loop Economic Research via Multi-Agent Pipelines for Empirical Discovery
- arxiv url: http://arxiv.org/abs/2603.07444v1
- Date: Sun, 08 Mar 2026 03:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.595424
- Title: HLER: Human-in-the-Loop Economic Research via Multi-Agent Pipelines for Empirical Discovery
- Title(参考訳): HLER: 実証的発見のためのマルチエージェントパイプラインによる人力経済研究
- Authors: Chen Zhu, Xiaolu Wang,
- Abstract要約: 本稿では,実証研究自動化を支援するマルチエージェントアーキテクチャであるHLER(Human-in-the-Loop Economic Research)を紹介する。
このシステムは、データ監査、データプロファイリング、仮説生成、計量分析、原稿起草、自動レビューのための特殊エージェントを編成する。
実験の結果、データセットを意識した仮説生成は87%のケースで実現可能な研究質問を生成する一方、完全な実証的な原稿は1ラン当たり0.8~1.5ドルの平均APIコストで作成できることがわかった。
- 参考スコア(独自算出の注目度): 15.29303145822579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have enabled agent-based systems that aim to automate scientific research workflows. Most existing approaches focus on fully autonomous discovery, where AI systems generate research ideas, conduct analyses, and produce manuscripts with minimal human involvement. However, empirical research in economics and the social sciences poses additional constraints: research questions must be grounded in available datasets, identification strategies require careful design, and human judgment remains essential for evaluating economic significance. We introduce HLER (Human-in-the-Loop Economic Research), a multi-agent architecture that supports empirical research automation while preserving critical human oversight. The system orchestrates specialized agents for data auditing, data profiling, hypothesis generation, econometric analysis, manuscript drafting, and automated review. A key design principle is dataset-aware hypothesis generation, where candidate research questions are constrained by dataset structure, variable availability, and distributional diagnostics, reducing infeasible or hallucinated hypotheses. HLER further implements a two-loop architecture: a question quality loop that screens and selects feasible hypotheses, and a research revision loop where automated review triggers re-analysis and manuscript revision. Human decision gates are embedded at key stages, allowing researchers to guide the automated pipeline. Experiments on three empirical datasets show that dataset-aware hypothesis generation produces feasible research questions in 87% of cases (versus 41% under unconstrained generation), while complete empirical manuscripts can be produced at an average API cost of $0.8-$1.5 per run. These results suggest that Human-AI collaborative pipelines may provide a practical path toward scalable empirical research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学研究ワークフローの自動化を目的としたエージェントベースのシステムを実現している。
既存のアプローチは、AIシステムが研究アイデアを作成し、分析を行い、人間の関与を最小限に抑えた原稿を作成する、完全な自律的な発見に重点を置いている。
しかし、経済学と社会科学の実証的研究は、研究課題は利用可能なデータセットに基礎を置く必要があり、識別戦略は注意深い設計を必要とし、人間の判断は経済的重要性を評価する上で不可欠である。
HLER(Human-in-the-Loop Economic Research)は,人間を重要視しながら,実証研究の自動化を支援するマルチエージェントアーキテクチャである。
このシステムは、データ監査、データプロファイリング、仮説生成、計量分析、原稿起草、自動レビューのための特殊エージェントを編成する。
主要な設計原則はデータセット認識仮説の生成であり、候補研究の質問はデータセット構造、可変可利用性、分布診断によって制約され、実現不可能な仮説や幻覚仮説が減少する。
HLERはさらに、2ループアーキテクチャを実装している:質問品質ループは、実行可能な仮説をスクリーニングして選択し、自動レビューが再分析と原稿の改訂をトリガーする研究修正ループである。
人間の意思決定ゲートは重要なステージに埋め込まれており、研究者は自動パイプラインをガイドすることができる。
3つの経験的データセットの実験では、データセットを意識した仮説生成は87%のケースで実現可能な研究質問を発生し(制約のない生成では41%)、完全な経験的原稿は1ラン当たり0.8~1.5ドルの平均APIコストで作成可能である。
これらの結果から,人間とAIの協調パイプラインは,スケーラブルな実証研究への実践的な道筋を提供する可能性が示唆された。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - EpidemIQs: Prompt-to-Paper LLM Agents for Epidemic Modeling and Analysis [0.0]
大規模言語モデル(LLM)は、複雑な学際研究を自動化する新しい機会を提供する。
EpidemIQsは、ユーザ入力を統合し、文献のレビュー、分析的導出、ネットワークモデリング、シミュレーションの呼び出し、データの可視化と分析、そして最後に構造化された原稿での発見の文書化を行う、新しいマルチエージェントLCMフレームワークである。
我々は、計算コスト、完成率、AIおよび生成されたレポートの人間専門家レビューを測定する様々なシナリオにおいて、エピデムIQを評価した。
論文 参考訳(メタデータ) (2025-09-24T18:54:56Z) - DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery [26.388978716803464]
AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
論文 参考訳(メタデータ) (2025-08-09T12:15:08Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Automating Exploratory Multiomics Research via Language Models [22.302672656499315]
PROTEUSは、生のデータファイルからデータ駆動仮説を生成する完全に自動化されたシステムである。
本稿では, 下流データ解析と仮説の提案が重要な分野である臨床プロテオゲノミクス(Proteogenomics)にProteusを適用した。
論文 参考訳(メタデータ) (2025-06-09T09:44:21Z) - A Computational Method for Measuring "Open Codes" in Qualitative Analysis [44.39424825305388]
本稿では,人間と生成AI(GAI)による帰納的符号化結果を測定するための理論インフォームド計算手法を提案する。
これは、各コーダのコントリビューションを、Coverage、Overlap、Noverety、Divergenceの4つの新しいメトリクスを使用して、マージした結果に対して測定する。
本研究は,人間とAIの質的分析における方法論的厳密性を確保するための信頼性の高い経路を提供する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。