論文の概要: BABE: Biology Arena BEnchmark
- arxiv url: http://arxiv.org/abs/2602.05857v1
- Date: Thu, 05 Feb 2026 16:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.048924
- Title: BABE: Biology Arena BEnchmark
- Title(参考訳): BABE: Biology Arena BEnchmark
- Authors: Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang,
- Abstract要約: BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 51.53220868983288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of large language models (LLMs) has expanded their capabilities from basic dialogue to advanced scientific reasoning. However, existing benchmarks in biology often fail to assess a critical skill required of researchers: the ability to integrate experimental results with contextual knowledge to derive meaningful conclusions. To address this gap, we introduce BABE(Biology Arena BEnchmark), a comprehensive benchmark designed to evaluate the experimental reasoning capabilities of biological AI systems. BABE is uniquely constructed from peer-reviewed research papers and real-world biological studies, ensuring that tasks reflect the complexity and interdisciplinary nature of actual scientific inquiry. BABE challenges models to perform causal reasoning and cross-scale inference. Our benchmark provides a robust framework for assessing how well AI systems can reason like practicing scientists, offering a more authentic measure of their potential to contribute to biological research.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化により、その能力は基本的な対話から高度な科学的推論へと拡張された。
しかしながら、生物学における既存のベンチマークは、しばしば研究者が必要とする重要なスキルを評価するのに失敗する:実験結果と文脈知識を統合して意味のある結論を導き出す能力である。
このギャップに対処するため、生物AIシステムの実験的推論能力を評価するために設計された総合的なベンチマークであるBABE(Biology Arena BEnchmark)を紹介する。
BABEは、ピアレビューされた研究論文と現実世界の生物学的研究から独自に構築されており、実際の科学的調査の複雑さと学際的な性質を確実に反映している。
BABEは因果推論とクロススケール推論を行うためにモデルに挑戦する。
私たちのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく推理できるかを評価するための堅牢なフレームワークを提供し、彼らの生物学的研究に貢献する可能性のより正確な測定手段を提供します。
関連論文リスト
- Cross-Disciplinary Knowledge Retrieval and Synthesis: A Compound AI Architecture for Scientific Discovery [1.5143261755366868]
BioSageは、LLMをRAGと統合した新しい複合AIアーキテクチャで、AI、データサイエンス、バイオメディカル、バイオセキュリティドメインにわたる発見を可能にするために、特殊なエージェントとツールを編成した。
本システムでは,クエリ計画と応答合成を備えた検索エージェントを含む,複数の特殊エージェントを特徴とし,引用支援型応答を持つドメイン間の知識検索を実現する。
我々の研究は、チャート、表、構造化された科学データに対するマルチモーダル検索と推論に重点を置いており、また、クロスディシプリナ発見のための総合的なマルチモーダルベンチマークも開発している。
論文 参考訳(メタデータ) (2025-11-23T05:33:11Z) - BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model [12.528834366422466]
BioReasonは論理的、生物学的に一貫性のある還元物を生成することを学ぶ。
KEGGによる疾患経路予測の精度は86%から98%に向上する。
また、強いベースラインよりも平均15%の変動効果予測を改善する。
論文 参考訳(メタデータ) (2025-05-29T15:49:27Z) - Benchmarking AI scientists in omics data-driven biological research [3.3605177939410713]
我々は,生物発見を生み出すAI科学者の能力を評価するために,生物AI科学者ベンチマーク(BaisBench)を紹介する。
BaisBenchは、31のエキスパートラベル付きシングルセルデータセット上の細胞型アノテーションと、198の複数の質問への回答による科学的発見の2つのタスクで構成されている。
論文 参考訳(メタデータ) (2025-05-13T08:33:54Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。