Fugu-MT 論文翻訳(概要): AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark

論文の概要: AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark

arxiv url: http://arxiv.org/abs/2504.10568v2
Date: Thu, 24 Jul 2025 18:03:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 18:17:32.75181
Title: AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark
Title（参考訳）: AgMMU: 総合的な農業マルチモーダル理解ベンチマーク
Authors: Aruna Gauba, Irene Pi, Yunze Man, Ziqi Pang, Vikram S. Adve, Yu-Xiong Wang,
Abstract要約: AgMMUは、農業の知識集約領域における視覚言語モデル(VLM)を評価するためのベンチマークである。農夫と農務省が認可した協力的拡張の専門家との116,231の真正の対話から蒸留される。 VLMをリードするベンチマーク12では、微妙な知覚と事実的根拠のギャップが明らかになっている。
参考スコア（独自算出の注目度）: 22.762996076629207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present AgMMU, a challenging real-world benchmark for evaluating and advancing vision-language models (VLMs) in the knowledge-intensive domain of agriculture. Unlike prior datasets that rely on crowdsourced prompts, AgMMU is distilled from 116,231 authentic dialogues between everyday growers and USDA-authorized Cooperative Extension experts. Through a three-stage pipeline: automated knowledge extraction, QA generation, and human verification, we construct (i) AgMMU, an evaluation set of 746 multiple-choice questions (MCQs) and 746 open-ended questions (OEQs), and (ii) AgBase, a development corpus of 57,079 multimodal facts covering five high-stakes agricultural topics: insect identification, species identification, disease categorization, symptom description, and management instruction. Benchmarking 12 leading VLMs reveals pronounced gaps in fine-grained perception and factual grounding. Open-sourced models trail after proprietary ones by a wide margin. Simple fine-tuning on AgBase boosts open-sourced model performance on challenging OEQs for up to 11.6% on average, narrowing this gap and also motivating future research to propose better strategies in knowledge extraction and distillation from AgBase. We hope AgMMU stimulates research on domain-specific knowledge integration and trustworthy decision support in agriculture AI development.
Abstract（参考訳）: 本稿では、農業の知識集約領域における視覚言語モデル(VLM)の評価と発展のための挑戦的な実世界のベンチマークであるAgMMUを紹介する。クラウドソースされたプロンプトに依存する以前のデータセットとは異なり、AgMMUは、日々の栽培者とUSDA公認の協同拡張の専門家との間の116,231の認証対話から抽出される。 3段階パイプライン:自動知識抽出、QA生成、人間の検証、構築 (i)AgMMU、MCQ(Multiple-choice Question)746、OEQ(Open-ended Question)746の評価セット、及び (II)AgBaseは,昆虫の識別,種識別,病因分類,症状記述,管理指導の5つの高度農業分野を対象とする57,079件の多様事実の開発コーパスである。 VLMをリードするベンチマーク12では、微妙な知覚と事実的根拠のギャップが明らかになっている。オープンソースモデルはプロプライエタリなモデルに大きく追随している。 AgBaseの簡単な微調整は、OEQに挑戦するオープンソースモデルのパフォーマンスを、平均で11.6%まで向上させ、このギャップを狭めるとともに、AgBaseからの知識抽出と蒸留におけるより良い戦略を提案するための将来の研究を動機付けている。 AgMMUは、農業AI開発において、ドメイン固有の知識統合と信頼できる意思決定支援の研究を刺激することを期待しています。

関連論文リスト

AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [77.95897723270453]
作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
論文参考訳（メタデータ） (2025-07-29T17:59:48Z)
AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models [19.265932725554833]
本稿では,中国初の総合農業ベンチマークであるAgriEvalを提案する。 AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、4つの中核的な認知シナリオに対処している。 AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
論文参考訳（メタデータ） (2025-07-29T12:58:27Z)
AgroBench: Vision-Language Model Benchmark in Agriculture [25.52955831089068]
AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
論文参考訳（メタデータ） (2025-07-28T04:58:29Z)
ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [53.18163869901266]
ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。 ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-06-02T13:19:09Z)
Towards Large Reasoning Models for Agriculture [17.55987054582926]
農業の意思決定は、複雑な、文脈固有の推論を伴う。私たちはAgReasonを紹介します。AgReasonは、農業推論のための100の質問で、最初の専門家によるオープンソースの科学ベンチマークです。また、人間の監視によって生成された44.6K問合せ対の大規模データセットであるAgThoughtsも紹介する。
論文参考訳（メタデータ） (2025-05-25T18:28:12Z)
Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文参考訳（メタデータ） (2025-04-07T07:32:41Z)
A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文参考訳（メタデータ） (2025-03-10T06:37:42Z)
Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文参考訳（メタデータ） (2024-12-03T04:34:23Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Information Fusion in Smart Agriculture: Machine Learning Applications and Future Research Directions [6.060623947643556]
レビューでは、機械学習(ML)技術とマルチソースデータ融合が組み合わさって、予測精度と意思決定を改善して精度の高い農業を強化する方法について論じている。このレビューはAI研究と農業応用のギャップを埋め、研究者、産業専門家、政策立案者に情報融合とMLを利用して精密農業を推進するためのロードマップを提供する。
論文参考訳（メタデータ） (2024-05-23T17:53:31Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文参考訳（メタデータ） (2023-08-22T13:30:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。