論文の概要: ProtocoLLM: Automatic Evaluation Framework of LLMs on Domain-Specific Scientific Protocol Formulation Tasks
- arxiv url: http://arxiv.org/abs/2410.04601v1
- Date: Sun, 6 Oct 2024 19:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:36:17.302206
- Title: ProtocoLLM: Automatic Evaluation Framework of LLMs on Domain-Specific Scientific Protocol Formulation Tasks
- Title(参考訳): ProtocoLLM:ドメイン特化科学プロトコル定式化タスクにおけるLCMの自動評価フレームワーク
- Authors: Seungjun Yi, Jaeyoung Lim, Juyong Yoon,
- Abstract要約: 科学プロトコル定式化タスク(SPFT)におけるLarge Language Models(LLMs)の抜粋
本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtocoLLM を提案する。
GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
- 参考スコア(独自算出の注目度): 0.5266869303483376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated generation of scientific protocols executable by robots can significantly accelerate scientific research processes. Large Language Models (LLMs) excel at Scientific Protocol Formulation Tasks (SPFT), but the evaluation of their capabilities rely on human evaluation. Here, we propose a flexible, automatic framework to evaluate LLM's capability on SPFT: ProtocoLLM. This framework prompts the target model and GPT-4 to extract pseudocode from biology protocols using only predefined lab actions and evaluates the output of target model using LLAM-EVAL, the pseudocode generated by GPT-4 serving as a baseline and Llama-3 acting as the evaluator. Our adaptable prompt-based evaluation method, LLAM-EVAL, offers significant flexibility in terms of evaluation model, material, criteria, and is free of cost. We evaluate GPT variations, Llama, Mixtral, Gemma, Cohere, and Gemini. Overall, we find that GPT and Cohere is a powerful scientific protocol formulators. We also introduce BIOPROT 2.0, a dataset with biology protocols and corresponding pseudocodes, which can aid LLMs in formulation and evaluation of SPFT. Our work is extensible to assess LLMs on SPFT across various domains and other fields that require protocol generation for specific goals.
- Abstract(参考訳): ロボットによって実行可能な科学プロトコルの自動生成は、科学的研究プロセスを著しく加速することができる。
大言語モデル(LLM)は、SPFT(Scientific Protocol Formulation Tasks)で優れているが、その能力の評価は人間による評価に依存している。
本稿では,SPFT 上で LLM の機能を評価するためのフレキシブルな自動フレームワーク ProtocoLLM を提案する。
このフレームワークは、予め定義されたラボアクションのみを用いて、生物学のプロトコルからターゲットモデルとGPT-4を抽出し、LLAM-EVALを用いてターゲットモデルの出力を評価する。
我々の適応型プロンプトベース評価手法であるLLAM-EVALは, 評価モデル, 材料, 基準, コストの面において, 大幅な柔軟性を提供する。
GPT変異,Llama,Mixtral,Gemma,Cohere,Geminiを評価した。
全体として、GPTとCohereは強力な科学的プロトコル定式化器である。
また、生物学プロトコルとそれに対応する擬似コードを備えたデータセットであるBIOPROT 2.0を導入し、SPFTの定式化と評価においてLLMを支援する。
本研究は,SPFT 上の LLM を,特定の目的のためにプロトコル生成を必要とする様々な領域および他の分野にわたって評価するために拡張可能である。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文 参考訳(メタデータ) (2024-10-09T17:14:50Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチエージェントを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文 参考訳(メタデータ) (2024-08-16T12:01:55Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology [41.952424120054914]
大きな言語モデル(LLM)は、幅広いタスクにおいて印象的な機能を持っています。
本稿では,実験プロトコルの計画作業のための自動評価フレームワークを提案する。
本課題について, GPT-3 と GPT-4 を評価し, その堅牢性について検討した。
論文 参考訳(メタデータ) (2023-10-16T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。