Fugu-MT 論文翻訳(概要): BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

論文の概要: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2505.07889v1
Date: Sun, 11 May 2025 09:42:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.258261
Title: BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
Title（参考訳）: BioProBench: 生物学的プロトコル理解と推論における包括的データセットとベンチマーク
Authors: Yuyang Liu, Liuzhenghao Lv, Xiancheng Zhang, Li Yuan, Yonghong Tian,
Abstract要約: 生物プロトコルの理解と推論のための,最初の大規模統合マルチタスクベンチマークであるBioProBenchを紹介する。 BioProBenchは、Protocol Question Answering、Step Ordering、Error Correction、Protocol Generation、Protocol Reasoningの5つのコアタスクの包括的なスイートを提供する。
参考スコア（独自算出の注目度）: 31.739027752007928
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Biological protocols are fundamental to reproducible and safe life science research. While LLMs excel on general tasks, their systematic evaluation on these highly specialized, accuracy-critical, and inherently procedural texts remains limited. In this work, we present BioProBench, the first large-scale, integrated multi-task benchmark for biological protocol understanding and reasoning. While limited benchmarks have touched upon specific aspects like protocol QA, BioProBench provides a comprehensive suite of five core tasks: Protocol Question Answering, Step Ordering, Error Correction, Protocol Generation, and Protocol Reasoning, enabling a holistic evaluation of LLMs on procedural biological texts. Built upon 27K original protocols, it yields nearly 556K high-quality structured instances. We evaluate 12 mainstream open/closed-source LLMs on BioProBench. Experimental results reveal that while top models preform well on surface understanding tasks, struggle significantly with deep reasoning and structured generation tasks like ordering and generation. Furthermore, model comparisons reveal diverse performance: certain open-source models approach closed-source levels on some tasks, yet bio-specific small models lag behind general LLMs, indicating limitations on complex procedural content. Overall, our findings underscore that procedural reasoning within biological protocols represents a significant challenge for current LLMs. BioProBench serves as a standardized framework to diagnose these specific limitations and guide the development of AI systems better equipped for safely automating complex scientific procedures. The code and data are available at: https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/GreatCaptainNemo/BioProBench.
Abstract（参考訳）: 生物学的プロトコルは再現可能で安全な生命科学研究の基礎である。 LLMは一般的なタスクに優れるが、これらの高度に専門化され、正確で、本質的に手続き的なテキストに対する体系的な評価は依然として限られている。本稿では,生物プロトコルの理解と推論のための大規模統合型マルチタスクベンチマークであるBioProBenchを紹介する。限られたベンチマークがプロトコルQAのような特定の側面に触れている一方で、BioProBenchは、プロトコル質問回答、ステップ順序付け、エラー訂正、プロトコル生成、プロトコル推論の5つのコアタスクの包括的なスイートを提供しており、手続き的な生物学的テキスト上でのLCMの全体的評価を可能にしている。 27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。また,BioProBench上で12種類のオープンソースLLMを評価した。実験結果から,トップモデルが表面理解タスクで良好に機能する一方で,順序付けや生成といった深い推論や構造化された生成タスクに苦戦していることが明らかとなった。特定のオープンソースモデルは、いくつかのタスクにおいてクローズドソースレベルにアプローチするが、生物特異的な小さなモデルは一般的なLCMより遅れており、複雑な手続き的内容の制限が示される。本研究は, 生物学的プロトコルにおける手続き的推論が, 現在のLCMにとって重要な課題であることを示すものである。 BioProBenchは、これらの特定の制限を診断し、複雑な科学手順を安全に自動化するためのAIシステムの開発を促進するための標準化されたフレームワークとして機能する。コードとデータは以下の通りである。 https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/GreatCaptainNemo/BioProBench。

関連論文リスト

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting [17.973195066083797]
大規模言語モデル(LLM)は生物学的問題を解決する上で重要なツールとなっている。我々はBio-benchmarkと呼ばれる総合的なプロンプトベースのベンチマークフレームワークを導入する。 GPT-4oとLlama-3.1-70bを含む6つの主要LCMを0ショットと数ショットのChain-of-Thought設定を用いて評価した。
論文参考訳（メタデータ） (2025-03-06T02:01:59Z)
BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文参考訳（メタデータ） (2025-02-28T18:47:57Z)
BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。 CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文参考訳（メタデータ） (2025-02-23T17:38:10Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文参考訳（メタデータ） (2024-12-13T18:42:00Z)
ProtoMed-LLM: An Automatic Evaluation Framework for Large Language Models in Medical Protocol Formulation [0.5266869303483376]
科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtoMed-LLM を提案する。 GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
論文参考訳（メタデータ） (2024-10-06T19:28:55Z)
LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文参考訳（メタデータ） (2024-07-14T23:52:25Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文参考訳（メタデータ） (2023-11-01T14:44:01Z)
BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文参考訳（メタデータ） (2023-10-16T17:54:20Z)
BELB: a Biomedical Entity Linking Benchmark [3.9648178546218817]
本研究は,本分野における最近の研究成果を概観し,生物医学的テキストマイニングのための既存のベンチマークからその課題が欠落していることを見出した。我々は、バイオメディカルエンティティリンクベンチマークであるBELBを開発し、7つの知識ベースにリンクされた11のコーパスに統一されたフォーマットでアクセスできるようにした。 BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用した最近の3つのニューラルアプローチを広範囲に評価する。
論文参考訳（メタデータ） (2023-08-22T16:05:18Z)
Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。 LLM出力の不足情報や幻覚といった問題を見つけます。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。