論文の概要: Benchmarking AI scientists in omics data-driven biological research
- arxiv url: http://arxiv.org/abs/2505.08341v1
- Date: Tue, 13 May 2025 08:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.485742
- Title: Benchmarking AI scientists in omics data-driven biological research
- Title(参考訳): オミクスのデータ駆動生物学研究におけるAI科学者のベンチマーク
- Authors: Erpai Luo, Jinmeng Jia, Yifan Xiong, Xiangyu Li, Xiaobo Guo, Baoqi Yu, Lei Wei, Xuegong Zhang,
- Abstract要約: 我々は,生物発見を生み出すAI科学者の能力を評価するために,生物AI科学者ベンチマーク(BaisBench)を紹介する。
BaisBenchは、31のエキスパートラベル付きシングルセルデータセット上の細胞型アノテーションと、198の複数の質問への回答による科学的発見の2つのタスクで構成されている。
- 参考スコア(独自算出の注目度): 3.3605177939410713
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of large language models and multi-agent systems has sparked growing interest in AI scientists capable of autonomous biological research. However, existing benchmarks either focus on reasoning without data or on data analysis with predefined statistical answers, lacking realistic, data-driven evaluation settings. Here, we introduce the Biological AI Scientist Benchmark (BaisBench), a benchmark designed to assess AI scientists' ability to generate biological discoveries through data analysis and reasoning with external knowledge. BaisBench comprises two tasks: cell type annotation on 31 expert-labeled single-cell datasets, and scientific discovery through answering 198 multiple-choice questions derived from the biological insights of 41 recent single-cell studies. Systematic experiments on state-of-the-art AI scientists and LLM agents showed that while promising, current models still substantially underperform human experts on both tasks. We hope BaisBench will fill this gap and serve as a foundation for advancing and evaluating AI models for scientific discovery. The benchmark can be found at: https://github.com/EperLuo/BaisBench.
- Abstract(参考訳): 大規模言語モデルとマルチエージェントシステムの台頭は、自律的な生物学的研究が可能なAI科学者への関心が高まっている。
しかし、既存のベンチマークでは、データなしでの推論や、事前定義された統計的回答を伴うデータ分析に焦点を当てており、現実的なデータ駆動評価設定が欠如している。
ここでは,生物AI科学者ベンチマーク(BaisBench)を紹介する。このベンチマークは,AI科学者がデータ分析や外部知識による推論を通じて生物学的発見を生成する能力を評価するために設計されたベンチマークである。
BaisBenchは、31のエキスパートラベル付きシングルセルデータセット上の細胞型アノテーションと、41の最近のシングルセル研究の生物学的知見から導かれた198の多重選択質問への答えによる科学的発見の2つのタスクで構成されている。
最先端のAI科学者とLLMエージェントに関するシステマティックな実験は、有望ではあるが、現在のモデルは、両方のタスクにおいて人間の専門家を著しく下回っていることを示した。
BaisBenchがこのギャップを埋め、科学的な発見のためのAIモデルの進歩と評価の基盤となることを願っている。
ベンチマークは、https://github.com/EperLuo/BaisBench.orgで見ることができる。
関連論文リスト
- BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。