論文の概要: SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science
- arxiv url: http://arxiv.org/abs/2505.13220v1
- Date: Mon, 19 May 2025 15:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.68406
- Title: SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science
- Title(参考訳): SeedBench: シードサイエンスにおける大規模言語モデル評価のためのマルチタスクベンチマーク
- Authors: Jie Ying, Zihong Chen, Zhefan Wang, Wanli Jiang, Chenyang Wang, Zhonghang Yuan, Haoyang Su, Huanjun Kong, Fan Yang, Nanqing Dong,
- Abstract要約: 大型言語モデル (LLM) は様々な分野において有望であるが、シード科学への応用は限られている。
SeedBenchは、シードサイエンス用に特別に設計された最初のマルチタスクベンチマークです。
我々は、プロプライエタリ、オープンソース、ドメイン固有の微調整モデルを含む26のLLMを包括的に評価する。
- 参考スコア(独自算出の注目度): 6.932197419136055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seed science is essential for modern agriculture, directly influencing crop yields and global food security. However, challenges such as interdisciplinary complexity and high costs with limited returns hinder progress, leading to a shortage of experts and insufficient technological support. While large language models (LLMs) have shown promise across various fields, their application in seed science remains limited due to the scarcity of digital resources, complex gene-trait relationships, and the lack of standardized benchmarks. To address this gap, we introduce SeedBench -- the first multi-task benchmark specifically designed for seed science. Developed in collaboration with domain experts, SeedBench focuses on seed breeding and simulates key aspects of modern breeding processes. We conduct a comprehensive evaluation of 26 leading LLMs, encompassing proprietary, open-source, and domain-specific fine-tuned models. Our findings not only highlight the substantial gaps between the power of LLMs and the real-world seed science problems, but also make a foundational step for research on LLMs for seed design.
- Abstract(参考訳): 種子科学は、作物の収穫に直接影響を及ぼし、世界の食料安全保障に不可欠である。
しかし、学際的な複雑さや限られたリターンを伴う高いコストといった課題は進歩を妨げ、専門家の不足と技術支援の不足につながった。
大規模言語モデル(LLM)は様々な分野において有望であることを示しているが、デジタルリソースの不足、複雑な遺伝子と形質の関係、標準化されたベンチマークの欠如など、シード科学の応用は依然として限られている。
このギャップに対処するために、シードサイエンスに特化した最初のマルチタスクベンチマークであるSeedBenchを紹介します。
ドメインの専門家と共同で開発されたSeedBenchは、種子の育種と、現代の育種プロセスの重要な側面をシミュレートすることに重点を置いている。
我々は、プロプライエタリ、オープンソース、ドメイン固有の微調整モデルを含む26のLLMを包括的に評価する。
本研究は,LLMのパワーと実世界のシードサイエンス問題とのギャップを浮き彫りにするだけでなく,LLMのシードデザイン研究の基盤となる一歩を踏み出した。
関連論文リスト
- A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Harnessing Large Language Models for Seed Generation in Greybox Fuzzing [19.612191797460756]
本稿では、Large Language Modelsを活用して、インテリジェントなシード生成によるファジィ化を促進する新しいシステムであるSeedMindを紹介する。
従来のアプローチとは異なり、SeedMindはテストケースを直接生成するのではなく、LLMを使用してテストケースジェネレータを生成する。
SeedMindの開発では、入力フォーマットの制限、コンテキストウィンドウの制約、一貫性のある進捗対応動作の確保など、重要な課題に対処しました。
論文 参考訳(メタデータ) (2024-11-27T08:44:41Z) - PharmaGPT: Domain-Specific Large Language Models for Bio-Pharmaceutical and Chemistry [28.447446808292625]
大規模言語モデル(LLM)は、複雑な機能工学の必要性を最小限に抑えて、自然言語処理(NLP)に革命をもたらした。
PharmaGPTは、バイオ医薬品・化学分野に特化して訓練された、ドメインスペクライズされたLCMのスイートである。
評価の結果,PharmaGPTは特定のベンチマークで既存の一般モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-26T03:43:09Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - PLLaMa: An Open-source Large Language Model for Plant Science [10.037777633514123]
本稿ではLLaMa-2から進化した大規模言語モデルを提案する。
植物科学に関する150万以上の記事を含む包括的なデータベースで拡張されています。
植物と農業に関する特定のデータセットを含む最初の試験では、aMaが植物科学に関連するトピックの理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-01-03T08:06:26Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。