論文の概要: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2505.07889v1
- Date: Sun, 11 May 2025 09:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.258261
- Title: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
- Title(参考訳): BioProBench: 生物学的プロトコル理解と推論における包括的データセットとベンチマーク
- Authors: Yuyang Liu, Liuzhenghao Lv, Xiancheng Zhang, Li Yuan, Yonghong Tian,
- Abstract要約: 生物プロトコルの理解と推論のための,最初の大規模統合マルチタスクベンチマークであるBioProBenchを紹介する。
BioProBenchは、Protocol Question Answering、Step Ordering、Error Correction、Protocol Generation、Protocol Reasoningの5つのコアタスクの包括的なスイートを提供する。
- 参考スコア(独自算出の注目度): 31.739027752007928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Biological protocols are fundamental to reproducible and safe life science research. While LLMs excel on general tasks, their systematic evaluation on these highly specialized, accuracy-critical, and inherently procedural texts remains limited. In this work, we present BioProBench, the first large-scale, integrated multi-task benchmark for biological protocol understanding and reasoning. While limited benchmarks have touched upon specific aspects like protocol QA, BioProBench provides a comprehensive suite of five core tasks: Protocol Question Answering, Step Ordering, Error Correction, Protocol Generation, and Protocol Reasoning, enabling a holistic evaluation of LLMs on procedural biological texts. Built upon 27K original protocols, it yields nearly 556K high-quality structured instances. We evaluate 12 mainstream open/closed-source LLMs on BioProBench. Experimental results reveal that while top models preform well on surface understanding tasks, struggle significantly with deep reasoning and structured generation tasks like ordering and generation. Furthermore, model comparisons reveal diverse performance: certain open-source models approach closed-source levels on some tasks, yet bio-specific small models lag behind general LLMs, indicating limitations on complex procedural content. Overall, our findings underscore that procedural reasoning within biological protocols represents a significant challenge for current LLMs. BioProBench serves as a standardized framework to diagnose these specific limitations and guide the development of AI systems better equipped for safely automating complex scientific procedures. The code and data are available at: https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/GreatCaptainNemo/BioProBench.
- Abstract(参考訳): 生物学的プロトコルは再現可能で安全な生命科学研究の基礎である。
LLMは一般的なタスクに優れるが、これらの高度に専門化され、正確で、本質的に手続き的なテキストに対する体系的な評価は依然として限られている。
本稿では,生物プロトコルの理解と推論のための大規模統合型マルチタスクベンチマークであるBioProBenchを紹介する。
限られたベンチマークがプロトコルQAのような特定の側面に触れている一方で、BioProBenchは、プロトコル質問回答、ステップ順序付け、エラー訂正、プロトコル生成、プロトコル推論の5つのコアタスクの包括的なスイートを提供しており、手続き的な生物学的テキスト上でのLCMの全体的評価を可能にしている。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
また,BioProBench上で12種類のオープンソースLLMを評価した。
実験結果から,トップモデルが表面理解タスクで良好に機能する一方で,順序付けや生成といった深い推論や構造化された生成タスクに苦戦していることが明らかとなった。
特定のオープンソースモデルは、いくつかのタスクにおいてクローズドソースレベルにアプローチするが、生物特異的な小さなモデルは一般的なLCMより遅れており、複雑な手続き的内容の制限が示される。
本研究は, 生物学的プロトコルにおける手続き的推論が, 現在のLCMにとって重要な課題であることを示すものである。
BioProBenchは、これらの特定の制限を診断し、複雑な科学手順を安全に自動化するためのAIシステムの開発を促進するための標準化されたフレームワークとして機能する。
コードとデータは以下の通りである。 https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/GreatCaptainNemo/BioProBench。
関連論文リスト
- BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - ProtoMed-LLM: An Automatic Evaluation Framework for Large Language Models in Medical Protocol Formulation [0.5266869303483376]
科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋
本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtoMed-LLM を提案する。
GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
論文 参考訳(メタデータ) (2024-10-06T19:28:55Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文 参考訳(メタデータ) (2023-10-16T17:54:20Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。