論文の概要: BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
- arxiv url: http://arxiv.org/abs/2310.10632v1
- Date: Mon, 16 Oct 2023 17:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:29:59.159091
- Title: BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
- Title(参考訳): bioplanner: 生物におけるプロトコル計画におけるllmsの自動評価
- Authors: Odhran O'Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud,
Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques
- Abstract要約: 大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
- 参考スコア(独自算出の注目度): 41.952424120054914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to automatically generate accurate protocols for scientific
experiments would represent a major step towards the automation of science.
Large Language Models (LLMs) have impressive capabilities on a wide range of
tasks, such as question answering and the generation of coherent text and code.
However, LLMs can struggle with multi-step problems and long-term planning,
which are crucial for designing scientific experiments. Moreover, evaluation of
the accuracy of scientific protocols is challenging, because experiments can be
described correctly in many different ways, require expert knowledge to
evaluate, and cannot usually be executed automatically. Here we present an
automatic evaluation framework for the task of planning experimental protocols,
and we introduce BioProt: a dataset of biology protocols with corresponding
pseudocode representations. To measure performance on generating scientific
protocols, we use an LLM to convert a natural language protocol into
pseudocode, and then evaluate an LLM's ability to reconstruct the pseudocode
from a high-level description and a list of admissible pseudocode functions. We
evaluate GPT-3 and GPT-4 on this task and explore their robustness. We
externally validate the utility of pseudocode representations of text by
generating accurate novel protocols using retrieved pseudocode, and we run a
generated protocol successfully in our biological laboratory. Our framework is
extensible to the evaluation and improvement of language model planning
abilities in other areas of science or other areas that lack automatic
evaluation.
- Abstract(参考訳): 科学実験の正確なプロトコルを自動的に生成する能力は、科学の自動化に向けた大きな一歩となる。
大きな言語モデル(LLM)は、質問応答や一貫性のあるテキストやコードの生成など、幅広いタスクにおいて印象的な機能を持つ。
しかし、LLMは科学実験の設計に欠かせない多段階問題や長期計画に苦しむことがある。
さらに、様々な方法で実験を正しく記述することができ、専門家の知識を必要とし、通常は自動的に実行できないため、科学的プロトコルの精度の評価は困難である。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークBioProtについて紹介する。
科学的プロトコルの生成性能を評価するため,LLMを用いて自然言語プロトコルを擬似コードに変換し,高いレベルの記述と許容可能な擬似コード関数のリストから擬似コードを再構築する能力を評価する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性を検討した。
我々は,検索した擬似符号を用いて正確な新しいプロトコルを生成することによって,テキストの擬似符号表現の有用性を外部から検証する。
我々のフレームワークは、他の科学分野や自動評価を欠いた分野における言語モデル計画能力の評価と改善に拡張可能である。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - ProtocoLLM: Automatic Evaluation Framework of LLMs on Domain-Specific Scientific Protocol Formulation Tasks [0.5266869303483376]
科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋
本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtocoLLM を提案する。
GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
論文 参考訳(メタデータ) (2024-10-06T19:28:55Z) - Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。
提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z) - Boolean matrix logic programming for active learning of gene functions in genome-scale metabolic network models [4.762323642506732]
我々は、細胞工学の促進と生物学的発見を促進するために、論理ベースの機械学習技術を適用しようとしている。
我々は,情報的実験を導くことでゲノム仮説空間を効率的に探索する新しいシステム,BMLP_active$を導入する。
$BMLP_active$は、ランダムな実験よりもトレーニング例が少ない遺伝子ペア間の相互作用をうまく学べる。
論文 参考訳(メタデータ) (2024-05-10T09:51:06Z) - CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments [51.41735920759667]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、しばしば特定の知識が欠如し、生物学的設計の問題を正確に解くのに苦労する。
本研究では,CRISPRに基づく遺伝子編集実験の設計プロセスを自動化するために,ドメイン知識と外部ツールを付加したLCMエージェントであるCRISPR-GPTを紹介する。
論文 参考訳(メタデータ) (2024-04-27T22:59:17Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。