論文の概要: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2505.07889v2
- Date: Thu, 29 May 2025 07:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.810308
- Title: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
- Title(参考訳): BioProBench: 生物学的プロトコル理解と推論における包括的データセットとベンチマーク
- Authors: Yuyang Liu, Liuzhenghao Lv, Xiancheng Zhang, Li Yuan, Yonghong Tian,
- Abstract要約: 生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
- 参考スコア(独自算出の注目度): 31.739027752007928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Biological protocols are fundamental to reproducibility and safety in life science research. While large language models (LLMs) perform well on general tasks, their systematic evaluation on these highly specialized, accuracy-critical, and inherently procedural texts remains limited. In this work, we present BioProBench, the first large-scale, multi-task benchmark for biological protocol understanding and reasoning. While there are several benchmark tasks involving protocol question answering, BioProBench provides a comprehensive suite of five core tasks: Protocol Question Answering, Step Ordering, Error Correction, Protocol Generation, and Protocol Reasoning, enabling a holistic evaluation of LLMs on procedural biological texts. Built upon 27K original protocols, it yields nearly 556K high-quality structured instances. We evaluate 12 mainstream open/closed-source LLMs. Experimental results reveal that some models perform well on basic understanding tasks (e.g., \sim70% PQA-Acc., >64% ERR F1), but struggle significantly with deep reasoning and structured generation tasks like ordering and generation. Furthermore, model comparisons show diverse performance: certain open-source models approach closed-source levels on some tasks, yet bio-specific small models lag behind general LLMs, indicating limitations on complex procedural content. Overall, BioProBench, through its task design and experimental findings, systematically reveals the fundamental challenges for current LLMs in procedural knowledge understanding, deep adaptability to specific domains, reliability of structured reasoning, and handling of sophisticated precision and safety constraints, providing key directions for future AI in the field of scientific experiment automation. The code and data are available at: https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/BioProBench/BioProBench.
- Abstract(参考訳): 生物学的プロトコルは、生命科学研究における再現性と安全性の基礎である。
大規模言語モデル(LLM)は一般的なタスクでよく機能するが、これらの高度に特殊化され、正確で、本質的に手続き的なテキストに対する体系的な評価は依然として限られている。
本稿では,生物プロトコルの理解と推論のための大規模マルチタスクベンチマークであるBioProBenchを紹介する。
プロトコル質問応答に関するベンチマークタスクはいくつかあるが、BioProBenchは5つのコアタスクからなる包括的なスイートを提供している。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
オープン/クローズド・ソースのLLMを12種類評価した。
実験結果から,いくつかのモデルは基本的な理解タスク(例えば, sim70% PQA-Acc)で良好に動作することがわかった。
しかし、深い推論や、順序付けや生成といった構造化された生成タスクには、かなり苦労しています。
特定のオープンソースモデルは、いくつかのタスクにおいてクローズドソースレベルにアプローチするが、生物特異的な小さなモデルは一般的なLCMより遅れており、複雑な手続き的内容の制限が示される。
全体として、BioProBenchはタスク設計と実験結果を通じて、手続き的知識理解、特定のドメインへの深い適応性、構造化推論の信頼性、洗練された精度と安全性の制約への対処における現在のLLMの根本的な課題を体系的に明らかにし、科学実験自動化の分野における将来のAIの重要な方向を提供する。
コードとデータは以下の通りである。 https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/BioProBench/BioProBench。
関連論文リスト
- BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - ProtoMed-LLM: An Automatic Evaluation Framework for Large Language Models in Medical Protocol Formulation [0.5266869303483376]
科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋
本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtoMed-LLM を提案する。
GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
論文 参考訳(メタデータ) (2024-10-06T19:28:55Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文 参考訳(メタデータ) (2023-10-16T17:54:20Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。