論文の概要: LAB-Bench: Measuring Capabilities of Language Models for Biology Research
- arxiv url: http://arxiv.org/abs/2407.10362v2
- Date: Tue, 16 Jul 2024 15:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:14:33.741582
- Title: LAB-Bench: Measuring Capabilities of Language Models for Biology Research
- Title(参考訳): LAB-Bench:生物学研究のための言語モデルの能力測定
- Authors: Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques,
- Abstract要約: 言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
- 参考スコア(独自算出の注目度): 1.6312096924271486
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench
- Abstract(参考訳): フロンティア大言語モデル(LLM)とLLM拡張システムは、分野によって科学的な発見を迅速に加速する可能性があるという、幅広い楽観主義がある。
現在、LLMの知識と推論を教科書スタイルの科学問題で測定するためのベンチマークが多数存在するが、文献検索、プロトコル計画、データ分析などの科学研究に必要な実践的なタスクにおいて言語モデルのパフォーマンスを評価するために設計されたベンチマークはほとんどない。
このようなベンチマークを構築するためのステップとして、Language Agent Biology Benchmark (LAB-Bench) を導入し、文献のリコールと推論、数字の解釈、データベースのアクセスとナビゲーション、DNAとタンパク質配列の理解と操作など、AIシステムを評価するための2,400以上の選択肢の広いデータセットを紹介した。
重要なことは、従来の科学的ベンチマークとは対照的に、より難しいLAB-Benchタスクで一貫した高いスコアを達成できるAIシステムは、文学検索や分子クローニングといった分野の研究者にとって有用なアシスタントとなるだろう。
本研究は,フロンティア言語モデルの創発的科学的タスク能力の初回評価として,我々のベンチマークに対していくつかの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
LAB-Benchは今後もアップデートと拡張を続けますし、今後は自動研究システムの開発に有用なツールになるだろうと考えています。
LAB-Benchのパブリックサブセットは、以下のURLで利用可能である。
関連論文リスト
- Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.624608816218505]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (2024-06-29T15:23:28Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BELB: a Biomedical Entity Linking Benchmark [3.9648178546218817]
本研究は,本分野における最近の研究成果を概観し,生物医学的テキストマイニングのための既存のベンチマークからその課題が欠落していることを見出した。
我々は、バイオメディカルエンティティリンクベンチマークであるBELBを開発し、7つの知識ベースにリンクされた11のコーパスに統一されたフォーマットでアクセスできるようにした。
BELBを用いて、6つのルールベースのエンティティ固有システムと、事前訓練された言語モデルを活用した最近の3つのニューラルアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2023-08-22T16:05:18Z) - Bio-SIEVE: Exploring Instruction Tuning Large Language Models for
Systematic Review Automation [6.452837513222072]
LLM(Large Language Models)は、医学的体系的レビューのための文献スクリーニングをサポートすることができる。
私たちのベストモデルであるBio-SIEVEは、ChatGPTとトレーニングされた伝統的なアプローチの両方より優れています。
バイオSIEVEは, バイオメディカル・システマティック・レビューのプロセスにおいて, LLMを専門化するための重要なステップであると考えている。
論文 参考訳(メタデータ) (2023-08-12T16:56:55Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。