論文の概要: BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research
- arxiv url: http://arxiv.org/abs/2505.16100v1
- Date: Thu, 22 May 2025 01:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.957251
- Title: BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research
- Title(参考訳): BioDSA-1K:生物医学研究のためのデータサイエンスエージェントのベンチマーク
- Authors: Zifeng Wang, Benjamin Danek, Jimeng Sun,
- Abstract要約: BioDSA-1Kは1029の仮説中心のタスクと1,177の分析計画からなる。
このベンチマークは,(1)仮説決定精度,(2)証拠と結論の整合性,(3)推論過程の正しさ,(4)AI生成解析コードの実行可能性の4つの軸に沿った評価を可能にする。
- 参考スコア(独自算出の注目度): 29.469867701731374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Validating scientific hypotheses is a central challenge in biomedical research, and remains difficult for artificial intelligence (AI) agents due to the complexity of real-world data analysis and evidence interpretation. In this work, we present BioDSA-1K, a benchmark designed to evaluate AI agents on realistic, data-driven biomedical hypothesis validation tasks. BioDSA-1K consists of 1,029 hypothesis-centric tasks paired with 1,177 analysis plans, curated from over 300 published biomedical studies to reflect the structure and reasoning found in authentic research workflows. Each task includes a structured hypothesis derived from the original study's conclusions, expressed in the affirmative to reflect the language of scientific reporting, and one or more pieces of supporting evidence grounded in empirical data tables. While these hypotheses mirror published claims, they remain testable using standard statistical or machine learning methods. The benchmark enables evaluation along four axes: (1) hypothesis decision accuracy, (2) alignment between evidence and conclusion, (3) correctness of the reasoning process, and (4) executability of the AI-generated analysis code. Importantly, BioDSA-1K includes non-verifiable hypotheses: cases where the available data are insufficient to support or refute a claim, reflecting a common yet underexplored scenario in real-world science. We propose BioDSA-1K as a foundation for building and evaluating generalizable, trustworthy AI agents for biomedical discovery.
- Abstract(参考訳): 科学的仮説を検証することは、生物医学研究における中心的な課題であり、実世界のデータ分析と証拠解釈の複雑さのため、人工知能(AI)エージェントにとって依然として困難である。
本研究では,現実的なデータ駆動型バイオメディカル仮説検証タスクにおいて,AIエージェントの評価を目的としたベンチマークであるBioDSA-1Kを提案する。
バイオDSA-1Kは1,177件の分析計画と合わせて1,029件の仮説中心のタスクで構成され、300件以上の生物医学研究から収集され、実際の研究ワークフローで見られる構造と推論を反映している。
各タスクは、科学報告の言語を反映するために肯定的に表現された元の研究の結論から導かれた構造化された仮説と、実証データテーブルに根拠付けられた1つ以上の支持された証拠を含んでいる。
これらの仮説は主張を反映しているが、標準的な統計学や機械学習の手法を用いて検証可能である。
このベンチマークは,(1)仮説決定精度,(2)証拠と結論の整合性,(3)推論過程の正しさ,(4)AI生成解析コードの実行可能性の4つの軸に沿った評価を可能にする。
重要なことに、BioDSA-1Kには、検証不可能な仮説が含まれている。
本稿では,生物医学的発見のための汎用的で信頼性の高いAIエージェントの構築と評価の基礎として,BioDSA-1Kを提案する。
関連論文リスト
- Benchmarking AI scientists in omics data-driven biological research [3.3605177939410713]
我々は,生物発見を生み出すAI科学者の能力を評価するために,生物AI科学者ベンチマーク(BaisBench)を紹介する。
BaisBenchは、31のエキスパートラベル付きシングルセルデータセット上の細胞型アノテーションと、198の複数の質問への回答による科学的発見の2つのタスクで構成されている。
論文 参考訳(メタデータ) (2025-05-13T08:33:54Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Automating Exploratory Proteomics Research via Language Models [22.302672656499315]
PROTEUSは、生データから科学的発見を行うための完全に自動化されたシステムである。
人間の介入なしに研究目的、分析結果、新しい生物学的仮説を包括的に作成する。
論文 参考訳(メタデータ) (2024-11-06T08:16:56Z) - Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。