論文の概要: Measuring Scientific Capabilities of Language Models with a Systems Biology Dry Lab
- arxiv url: http://arxiv.org/abs/2507.02083v2
- Date: Mon, 14 Jul 2025 15:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.742958
- Title: Measuring Scientific Capabilities of Language Models with a Systems Biology Dry Lab
- Title(参考訳): システムバイオロジードライラボによる言語モデルの科学的能力の測定
- Authors: Haonan Duan, Stephen Zhewen Lu, Caitlin Fiona Harrigan, Nishkrit Desai, Jiarui Lu, Michał Koziarski, Leonardo Cotta, Chris J. Maddison,
- Abstract要約: SciGymは,大規模言語モデルの反復的実験設計と解析能力を評価する一級ベンチマークである。
SciGymは、生体システムのドライラボを実行することで、ウェットラブコストの課題を克服する。
137個の小システム上で6つのフロンティアLSMを評価し,350個のシステムをリリースした。
- 参考スコア(独自算出の注目度): 16.242404913297797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing experiments and result interpretations are core scientific competencies, particularly in biology, where researchers perturb complex systems to uncover the underlying systems. Recent efforts to evaluate the scientific capabilities of large language models (LLMs) fail to test these competencies because wet-lab experimentation is prohibitively expensive: in expertise, time and equipment. We introduce SciGym, a first-in-class benchmark that assesses LLMs' iterative experiment design and analysis abilities in open-ended scientific discovery tasks. SciGym overcomes the challenge of wet-lab costs by running a dry lab of biological systems. These models, encoded in Systems Biology Markup Language, are efficient for generating simulated data, making them ideal testbeds for experimentation on realistically complex systems. We evaluated six frontier LLMs on 137 small systems, and released a total of 350 systems. Our evaluation shows that while more capable models demonstrated superior performance, all models' performance declined significantly as system complexity increased, suggesting substantial room for improvement in the scientific capabilities of LLM agents.
- Abstract(参考訳): 実験と結果の解釈を設計することは、特に生物学において、基礎となるシステムを明らかにするために複雑なシステムを摂動させる中心的な科学的能力である。
大規模言語モデル(LLM)の科学的能力を評価するための最近の取り組みは、ウェットラブ実験は、専門知識、時間、設備において違法に高価であるため、これらの能力のテストに失敗している。
SciGymはLLMの反復的な実験設計と分析能力を評価する一級ベンチマークである。
SciGymは、生体システムのドライラボを実行することで、ウェットラブコストの課題を克服する。
システム生物学マークアップ言語で符号化されたこれらのモデルは、シミュレーションデータを生成するのに効率的であり、現実的な複雑なシステムで実験するための理想的なテストベッドとなる。
137個の小システム上で6つのフロンティアLSMを評価し,350個のシステムをリリースした。
以上の結果から,LLMエージェントの科学的能力向上の余地が示唆され,性能が向上する一方,全てのモデルの性能は大幅に低下した。
関連論文リスト
- Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自動運転研究所(SDL)の開発を加速させた。
本稿では,原子間力顕微鏡(AFM)を自動化するフレームワークであるAILA(Artificially Intelligent Lab Assistant)を紹介する。
我々の体系的な評価は、最先端の言語モデルがドキュメント検索のような基本的なタスクに悩まされていることを示している。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - Probing the limitations of multimodal language models for chemistry and materials research [3.422786943576035]
実世界の化学や材料科学のタスクを視覚言語モデルがどのように扱うかを評価するためのベンチマークであるMaCBenchを紹介する。
これらのシステムは、基本的な知覚タスクにおいて有望な能力を示すが、空間的推論、クロスモーダル情報合成、論理的推論の基本的な限界を示す。
私たちの洞察は、化学や材料科学以外にも重要な意味を持ち、信頼性の高いマルチモーダルAI科学アシスタントを開発するには、適切なトレーニングデータとそれらのモデルをトレーニングするためのアプローチのキュレーションの進歩が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-11-25T21:51:45Z) - Automating Exploratory Proteomics Research via Language Models [22.302672656499315]
PROTEUSは、生データから科学的発見を行うための完全に自動化されたシステムである。
人間の介入なしに研究目的、分析結果、新しい生物学的仮説を包括的に作成する。
論文 参考訳(メタデータ) (2024-11-06T08:16:56Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Human Comprehensible Active Learning of Genome-Scale Metabolic Networks [7.838090421892651]
仮説空間を効率的に探索し、実験設計を導く、理解可能な機械学習アプローチが緊急に必要である。
Inductive Logic Programming (ILP) に基づく新しい機械学習フレームワーク ILP-iML1515 を提案する。
ILP-iML1515はゲノムスケールの代謝モデルの理解可能な論理的表現に基づいて構築されており、補助栄養変異体試験から新しい論理構造を学習することでモデルを更新することができる。
論文 参考訳(メタデータ) (2023-08-24T12:42:00Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。