Fugu-MT 論文翻訳(概要): SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science

論文の概要: SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science

arxiv url: http://arxiv.org/abs/2505.13220v1
Date: Mon, 19 May 2025 15:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.68406
Title: SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science
Title（参考訳）: SeedBench: シードサイエンスにおける大規模言語モデル評価のためのマルチタスクベンチマーク
Authors: Jie Ying, Zihong Chen, Zhefan Wang, Wanli Jiang, Chenyang Wang, Zhonghang Yuan, Haoyang Su, Huanjun Kong, Fan Yang, Nanqing Dong,
Abstract要約: 大型言語モデル (LLM) は様々な分野において有望であるが、シード科学への応用は限られている。 SeedBenchは、シードサイエンス用に特別に設計された最初のマルチタスクベンチマークです。我々は、プロプライエタリ、オープンソース、ドメイン固有の微調整モデルを含む26のLLMを包括的に評価する。
参考スコア（独自算出の注目度）: 6.932197419136055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Seed science is essential for modern agriculture, directly influencing crop yields and global food security. However, challenges such as interdisciplinary complexity and high costs with limited returns hinder progress, leading to a shortage of experts and insufficient technological support. While large language models (LLMs) have shown promise across various fields, their application in seed science remains limited due to the scarcity of digital resources, complex gene-trait relationships, and the lack of standardized benchmarks. To address this gap, we introduce SeedBench -- the first multi-task benchmark specifically designed for seed science. Developed in collaboration with domain experts, SeedBench focuses on seed breeding and simulates key aspects of modern breeding processes. We conduct a comprehensive evaluation of 26 leading LLMs, encompassing proprietary, open-source, and domain-specific fine-tuned models. Our findings not only highlight the substantial gaps between the power of LLMs and the real-world seed science problems, but also make a foundational step for research on LLMs for seed design.
Abstract（参考訳）: 種子科学は、作物の収穫に直接影響を及ぼし、世界の食料安全保障に不可欠である。しかし、学際的な複雑さや限られたリターンを伴う高いコストといった課題は進歩を妨げ、専門家の不足と技術支援の不足につながった。大規模言語モデル(LLM)は様々な分野において有望であることを示しているが、デジタルリソースの不足、複雑な遺伝子と形質の関係、標準化されたベンチマークの欠如など、シード科学の応用は依然として限られている。このギャップに対処するために、シードサイエンスに特化した最初のマルチタスクベンチマークであるSeedBenchを紹介します。ドメインの専門家と共同で開発されたSeedBenchは、種子の育種と、現代の育種プロセスの重要な側面をシミュレートすることに重点を置いている。我々は、プロプライエタリ、オープンソース、ドメイン固有の微調整モデルを含む26のLLMを包括的に評価する。本研究は,LLMのパワーと実世界のシードサイエンス問題とのギャップを浮き彫りにするだけでなく,LLMのシードデザイン研究の基盤となる一歩を踏み出した。

関連論文リスト

AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [77.95897723270453]
作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
論文参考訳（メタデータ） (2025-07-29T17:59:48Z)
Toward Scientific Reasoning in LLMs: Training from Expert Discussions via Reinforcement Learning [45.551731507535735]
ゲノム工学に関する10年以上にわたる科学フォーラムの議論から構築された新しいベンチマークであるGenome-Benchを紹介する。我々のパイプラインは生の対話を、3000以上の高品質な質問応答対をサポートする強化学習フレンドリーな多重選択質問形式に変換する。その結果,ジェノム・ベンチのベースモデルと比較して,科学的議論による強化学習によりモデル性能が15%以上向上することが示唆された。
論文参考訳（メタデータ） (2025-05-26T04:28:46Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
Harnessing Large Language Models for Seed Generation in Greybox Fuzzing [19.612191797460756]
本稿では、Large Language Modelsを活用して、インテリジェントなシード生成によるファジィ化を促進する新しいシステムであるSeedMindを紹介する。従来のアプローチとは異なり、SeedMindはテストケースを直接生成するのではなく、LLMを使用してテストケースジェネレータを生成する。 SeedMindの開発では、入力フォーマットの制限、コンテキストウィンドウの制約、一貫性のある進捗対応動作の確保など、重要な課題に対処しました。
論文参考訳（メタデータ） (2024-11-27T08:44:41Z)
PharmaGPT: Domain-Specific Large Language Models for Bio-Pharmaceutical and Chemistry [28.447446808292625]
大規模言語モデル(LLM)は、複雑な機能工学の必要性を最小限に抑えて、自然言語処理(NLP)に革命をもたらした。 PharmaGPTは、バイオ医薬品・化学分野に特化して訓練された、ドメインスペクライズされたLCMのスイートである。評価の結果,PharmaGPTは特定のベンチマークで既存の一般モデルを上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-26T03:43:09Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文参考訳（メタデータ） (2024-01-26T05:33:34Z)
PLLaMa: An Open-source Large Language Model for Plant Science [10.037777633514123]
本稿ではLLaMa-2から進化した大規模言語モデルを提案する。植物科学に関する150万以上の記事を含む包括的なデータベースで拡張されています。植物と農業に関する特定のデータセットを含む最初の試験では、aMaが植物科学に関連するトピックの理解を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-01-03T08:06:26Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。