論文の概要: HARPA: A Testability-Driven, Literature-Grounded Framework for Research Ideation
- arxiv url: http://arxiv.org/abs/2510.00620v1
- Date: Wed, 01 Oct 2025 07:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.448783
- Title: HARPA: A Testability-Driven, Literature-Grounded Framework for Research Ideation
- Title(参考訳): HARPA: 研究思想のためのテスト容易性駆動型文献収集フレームワーク
- Authors: Rosni Vasu, Peter Jansen, Pao Siangliulue, Cristina Sarasua, Abraham Bernstein, Peter Clark, Bhavana Dalvi Mishra,
- Abstract要約: HARPAは科学的文献で実証可能な仮説を生成するためのツールである。
評価の結果,HARPAが生成する仮説駆動型研究提案は,強力なベースラインAI-Researcherと相容れない性能を示した。
ASDエージェント(CodeScientist)でテストすると、HARPAはより成功した実行(40のうち20対11)と少ない障害(16対21対40)を生み出した。
- 参考スコア(独自算出の注目度): 29.9491787481972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been a surge of interest in automated scientific discovery (ASD), especially with the emergence of LLMs, it remains challenging for tools to generate hypotheses that are both testable and grounded in the scientific literature. Additionally, existing ideation tools are not adaptive to prior experimental outcomes. We developed HARPA to address these challenges by incorporating the ideation workflow inspired by human researchers. HARPA first identifies emerging research trends through literature mining, then explores hypothesis design spaces, and finally converges on precise, testable hypotheses by pinpointing research gaps and justifying design choices. Our evaluations show that HARPA-generated hypothesis-driven research proposals perform comparably to a strong baseline AI-researcher across most qualitative dimensions (e.g., specificity, novelty, overall quality), but achieve significant gains in feasibility(+0.78, p$<0.05$, bootstrap) and groundedness (+0.85, p$<0.01$, bootstrap) on a 10-point Likert scale. When tested with the ASD agent (CodeScientist), HARPA produced more successful executions (20 vs. 11 out of 40) and fewer failures (16 vs. 21 out of 40), showing that expert feasibility judgments track with actual execution success. Furthermore, to simulate how researchers continuously refine their understanding of what hypotheses are both testable and potentially interesting from experience, HARPA learns a reward model that scores new hypotheses based on prior experimental outcomes, achieving approx. a 28\% absolute gain over HARPA's untrained baseline scorer. Together, these methods represent a step forward in the field of AI-driven scientific discovery.
- Abstract(参考訳): 自動科学的発見(ASD)への関心が高まっているが、特にLSMの出現に伴い、科学的文献で実証可能な仮説を導出するためのツールがいまだに困難である。
さらに、既存のアイデアツールは、以前の実験結果に適応しない。
我々は、人間の研究者にインスパイアされたアイデアワークフローを取り入れることで、これらの課題に対処するHARPAを開発した。
HARPAはまず文献採掘を通じて新たな研究トレンドを特定し、次に仮説設計空間を探索し、最終的に研究ギャップを指摘し、設計選択を正当化することで、正確で検証可能な仮説に収束する。
評価の結果,HARPAが生成した仮説駆動型研究提案は,ほとんどの定性的次元(例えば,特異性,新規性,全体的な品質)において,強いベースラインAI-Researcherに対して比較可能だが,実現可能性(+0.78, p$<0.05$, bootstrap)と接地性(+0.85, p$<0.01$, bootstrap)は10点のLikertスケールで大きく向上することがわかった。
ASDエージェント(CodeScientist)でテストすると、HARPAはより成功した実行(40点中20点対11点)とより少ない障害(16点対21点対40点)を生成し、専門家の実施可能性判断が実際の実行成功を追跡できたことを示している。
さらに、実験可能な仮説と、経験から潜在的に興味深い仮説の両方について、研究者が継続的に理解を深めていく様子をシミュレートするために、HARPAは、事前の実験結果に基づいて新しい仮説を評価する報酬モデルを学び、近似を達成する。
HARPAのトレーニングされていないベースラインスコアよりも28\%の絶対利得がある。
これらの手法は、AIによる科学的発見の分野における一歩である。
関連論文リスト
- Bayes-Entropy Collaborative Driven Agents for Research Hypotheses Generation and Optimization [4.469102316542763]
本稿では,HypoAgentsと呼ばれるマルチエージェント協調フレームワークを提案する。
多様性のサンプリングを通じて仮説を生成し、事前の信念を確立する。
その後、外部文献の証拠収集にRAG(erieval-augmented generation)を採用している。
情報エントロピー$H = - sum p_ilog p_i$ を用いて高不確かさ仮説を特定し、それらを積極的に洗練する。
論文 参考訳(メタデータ) (2025-08-03T13:05:32Z) - Open-ended Scientific Discovery via Bayesian Surprise [63.26412847240136]
AutoDSは、ベイジアン・サプライズを用いた科学探査を駆動する、オープンエンドの科学的発見の方法である。
我々はAutoDSを、生物学、経済学、金融学、行動科学といった21の領域にまたがる実世界のデータセットにまたがるデータ駆動ディスカバリの設定で評価する。
論文 参考訳(メタデータ) (2025-06-30T22:53:59Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.2992631982687]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。
本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。
実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。