論文の概要: AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.21773v1
- Date: Tue, 29 Jul 2025 12:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.347917
- Title: AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
- Title(参考訳): AgriEval: 大規模言語モデルのための総合的な中国の農業ベンチマーク
- Authors: Lian Yan, Haotian Wang, Chen Tang, Haifeng Liu, Tianyang Sun, Liangliang Liu, Yi Guan, Jingchi Jiang,
- Abstract要約: 本稿では,中国初の総合農業ベンチマークであるAgriEvalを提案する。
AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、4つの中核的な認知シナリオに対処している。
AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
- 参考スコア(独自算出の注目度): 19.265932725554833
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the agricultural domain, the deployment of large language models (LLMs) is hindered by the lack of training data and evaluation benchmarks. To mitigate this issue, we propose AgriEval, the first comprehensive Chinese agricultural benchmark with three main characteristics: (1) Comprehensive Capability Evaluation. AgriEval covers six major agriculture categories and 29 subcategories within agriculture, addressing four core cognitive scenarios: memorization, understanding, inference, and generation. (2) High-Quality Data. The dataset is curated from university-level examinations and assignments, providing a natural and robust benchmark for assessing the capacity of LLMs to apply knowledge and make expert-like decisions. (3) Diverse Formats and Extensive Scale. AgriEval comprises 14,697 multiple-choice questions and 2,167 open-ended question-and-answer questions, establishing it as the most extensive agricultural benchmark available to date. We also present comprehensive experimental results over 51 open-source and commercial LLMs. The experimental results reveal that most existing LLMs struggle to achieve 60% accuracy, underscoring the developmental potential in agricultural LLMs. Additionally, we conduct extensive experiments to investigate factors influencing model performance and propose strategies for enhancement. AgriEval is available at https://github.com/YanPioneer/AgriEval/.
- Abstract(参考訳): 農業分野では、大規模言語モデル(LLM)の展開は、トレーニングデータや評価ベンチマークの欠如によって妨げられている。
この問題を軽減するために,(1)総合能力評価(Comprehensive Capability Evaluation)という3つの特徴を持つ,中国初の総合農業ベンチマークであるAgriEvalを提案する。
AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、記憶、理解、推論、生成という4つの中核的な認知シナリオに対処している。
(2)高品質データ。
データセットは大学レベルの試験と課題からキュレートされ、LLMの能力を評価し、知識を適用し、専門家のような意思決定を行うための、自然で堅牢なベンチマークを提供する。
(3)多変量フォーマットと拡張尺度
AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
また,51のオープンソース LLM および商用 LLM に対して総合的な実験結果を示す。
実験の結果,既存のLLMは60%の精度の達成に苦慮していることが明らかとなった。
さらに,モデル性能に影響を与える要因について広範な実験を行い,拡張戦略を提案する。
AgriEvalはhttps://github.com/YanPioneer/AgriEval/.comで入手できる。
関連論文リスト
- AgroBench: Vision-Language Model Benchmark in Agriculture [25.52955831089068]
AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。
私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
論文 参考訳(メタデータ) (2025-07-28T04:58:29Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
農業における大規模言語モデル(LLM)は一般的に、局所的および多言語的文脈における精度を欠いた一般的なアドバイザリを提供する。
本研究では,多言語合成農業データセット(ヒンディー語,パンジャービ語,ヒンディー語,パンジャービ語)を農業用文書および微調整言語用LPMから生成する。
キュレートされた多言語データセットに対する評価は,事実的正確性,妥当性,農業的コンセンサスにおいて有意な改善を示した。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - AgroLLM: Connecting Farmers and Agricultural Practices through Large Language Models for Enhanced Knowledge Transfer and Practical Application [1.9643850583333375]
AgroLLMは、Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)フレームワークを使用して、農業における知識共有と教育を強化するように設計されている。
4つの主要農業領域における性能評価のための3つの先進モデルの比較研究を行った。
RAGを用いたChatGPT-4o Miniの精度は93%であった。
論文 参考訳(メタデータ) (2025-02-28T04:13:18Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using
Large Language Models [1.3999521658236698]
大規模言語モデル(LLM)は、様々な領域にわたる自然言語理解において顕著な能力を示した。
本稿では,Llama 2 や GPT などの一般的な LLM の総合的な評価を行い,農業関連問題への回答能力について述べる。
ブラジル、インド、米国の三大農業生産国から、農業試験とベンチマークデータセットを選択した。
論文 参考訳(メタデータ) (2023-10-10T00:39:04Z) - Empowering Agrifood System with Artificial Intelligence: A Survey of the Progress, Challenges and Opportunities [86.89427012495457]
我々は、AI技術がアグリフードシステムをどう変え、現代のアグリフード産業に貢献するかをレビューする。
本稿では,農業,畜産,漁業において,アグリフードシステムにおけるAI手法の進歩について概説する。
我々は、AIで現代のアグリフードシステムを変革するための潜在的な課題と有望な研究機会を強調します。
論文 参考訳(メタデータ) (2023-05-03T05:16:54Z) - Jalisco's multiclass land cover analysis and classification using a
novel lightweight convnet with real-world multispectral and relief data [51.715517570634994]
本稿では、LC分類と解析を行うために、新しい軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。
本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。
組込み分析は、いくつかのクラスにおいて限られたパフォーマンスを期待し、最も類似したクラスをグループ化する機会を与えてくれます。
論文 参考訳(メタデータ) (2022-01-26T14:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。