Fugu-MT 論文翻訳(概要): BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

論文の概要: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2505.07889v2
Date: Thu, 29 May 2025 07:31:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:33.810308
Title: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
Title（参考訳）: BioProBench: 生物学的プロトコル理解と推論における包括的データセットとベンチマーク
Authors: Yuyang Liu, Liuzhenghao Lv, Xiancheng Zhang, Li Yuan, Yonghong Tian,
Abstract要約: 生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。 27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
参考スコア（独自算出の注目度）: 31.739027752007928
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Biological protocols are fundamental to reproducibility and safety in life science research. While large language models (LLMs) perform well on general tasks, their systematic evaluation on these highly specialized, accuracy-critical, and inherently procedural texts remains limited. In this work, we present BioProBench, the first large-scale, multi-task benchmark for biological protocol understanding and reasoning. While there are several benchmark tasks involving protocol question answering, BioProBench provides a comprehensive suite of five core tasks: Protocol Question Answering, Step Ordering, Error Correction, Protocol Generation, and Protocol Reasoning, enabling a holistic evaluation of LLMs on procedural biological texts. Built upon 27K original protocols, it yields nearly 556K high-quality structured instances. We evaluate 12 mainstream open/closed-source LLMs. Experimental results reveal that some models perform well on basic understanding tasks (e.g., \sim70% PQA-Acc., >64% ERR F1), but struggle significantly with deep reasoning and structured generation tasks like ordering and generation. Furthermore, model comparisons show diverse performance: certain open-source models approach closed-source levels on some tasks, yet bio-specific small models lag behind general LLMs, indicating limitations on complex procedural content. Overall, BioProBench, through its task design and experimental findings, systematically reveals the fundamental challenges for current LLMs in procedural knowledge understanding, deep adaptability to specific domains, reliability of structured reasoning, and handling of sophisticated precision and safety constraints, providing key directions for future AI in the field of scientific experiment automation. The code and data are available at: https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/BioProBench/BioProBench.
Abstract（参考訳）: 生物学的プロトコルは、生命科学研究における再現性と安全性の基礎である。大規模言語モデル(LLM)は一般的なタスクでよく機能するが、これらの高度に特殊化され、正確で、本質的に手続き的なテキストに対する体系的な評価は依然として限られている。本稿では,生物プロトコルの理解と推論のための大規模マルチタスクベンチマークであるBioProBenchを紹介する。プロトコル質問応答に関するベンチマークタスクはいくつかあるが、BioProBenchは5つのコアタスクからなる包括的なスイートを提供している。 27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。オープン/クローズド・ソースのLLMを12種類評価した。実験結果から,いくつかのモデルは基本的な理解タスク(例えば, sim70% PQA-Acc)で良好に動作することがわかった。しかし、深い推論や、順序付けや生成といった構造化された生成タスクには、かなり苦労しています。特定のオープンソースモデルは、いくつかのタスクにおいてクローズドソースレベルにアプローチするが、生物特異的な小さなモデルは一般的なLCMより遅れており、複雑な手続き的内容の制限が示される。全体として、BioProBenchはタスク設計と実験結果を通じて、手続き的知識理解、特定のドメインへの深い適応性、構造化推論の信頼性、洗練された精度と安全性の制約への対処における現在のLLMの根本的な課題を体系的に明らかにし、科学実験自動化の分野における将来のAIの重要な方向を提供する。コードとデータは以下の通りである。 https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/BioProBench/BioProBench。

関連論文リスト

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting [17.973195066083797]
大規模言語モデル(LLM)は生物学的問題を解決する上で重要なツールとなっている。我々はBio-benchmarkと呼ばれる総合的なプロンプトベースのベンチマークフレームワークを導入する。 GPT-4oとLlama-3.1-70bを含む6つの主要LCMを0ショットと数ショットのChain-of-Thought設定を用いて評価した。
論文参考訳（メタデータ） (2025-03-06T02:01:59Z)
BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文参考訳（メタデータ） (2025-02-28T18:47:57Z)
BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。 CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文参考訳（メタデータ） (2025-02-23T17:38:10Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文参考訳（メタデータ） (2024-12-13T18:42:00Z)
ProtoMed-LLM: An Automatic Evaluation Framework for Large Language Models in Medical Protocol Formulation [0.5266869303483376]
科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtoMed-LLM を提案する。 GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
論文参考訳（メタデータ） (2024-10-06T19:28:55Z)
LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文参考訳（メタデータ） (2024-07-14T23:52:25Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文参考訳（メタデータ） (2023-11-01T14:44:01Z)
BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文参考訳（メタデータ） (2023-10-16T17:54:20Z)
BELB: a Biomedical Entity Linking Benchmark [3.9648178546218817]
本研究は,本分野における最近の研究成果を概観し,生物医学的テキストマイニングのための既存のベンチマークからその課題が欠落していることを見出した。我々は、バイオメディカルエンティティリンクベンチマークであるBELBを開発し、7つの知識ベースにリンクされた11のコーパスに統一されたフォーマットでアクセスできるようにした。 BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用した最近の3つのニューラルアプローチを広範囲に評価する。
論文参考訳（メタデータ） (2023-08-22T16:05:18Z)
Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。 LLM出力の不足情報や幻覚といった問題を見つけます。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。