論文の概要: AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2504.10568v1
- Date: Mon, 14 Apr 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:12.960392
- Title: AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark
- Title(参考訳): AgMMU: 総合的な農業マルチモーダル理解と推論ベンチマーク
- Authors: Aruna Gauba, Irene Pi, Yunze Man, Ziqi Pang, Vikram S. Adve, Yu-Xiong Wang,
- Abstract要約: 視覚言語モデル(VLM)の評価と開発のためのデータセットAgMMUをキュレートする。
私たちのデータセットの中核的な特徴として、現実のユーザと農業の専門家との116,231件の会話から、すべての事実、質問、回答が抽出されます。
また,205,399点の農業知識情報を含む開発環境も提供する。
- 参考スコア(独自算出の注目度): 22.762996076629207
- License:
- Abstract: We curate a dataset AgMMU for evaluating and developing vision-language models (VLMs) to produce factually accurate answers for knowledge-intensive expert domains. Our AgMMU concentrates on one of the most socially beneficial domains, agriculture, which requires connecting detailed visual observation with precise knowledge to diagnose, e.g., pest identification, management instructions, etc. As a core uniqueness of our dataset, all facts, questions, and answers are extracted from 116,231 conversations between real-world users and authorized agricultural experts. After a three-step dataset curation pipeline with GPT-4o, LLaMA models, and human verification, AgMMU features an evaluation set of 5,460 multiple-choice questions (MCQs) and open-ended questions (OEQs). We also provide a development set that contains 205,399 pieces of agricultural knowledge information, including disease identification, symptoms descriptions, management instructions, insect and pest identification, and species identification. As a multimodal factual dataset, it reveals that existing VLMs face significant challenges with questions requiring both detailed perception and factual knowledge. Moreover, open-source VLMs still demonstrate a substantial performance gap compared to proprietary ones. To advance knowledge-intensive VLMs, we conduct fine-tuning experiments using our development set, which improves LLaVA-1.5 evaluation accuracy by up to 3.1%. We hope that AgMMU can serve both as an evaluation benchmark dedicated to agriculture and a development suite for incorporating knowledge-intensive expertise into general-purpose VLMs.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の評価と開発のためのデータセットAgMMUをキュレートし,知識集約の専門家ドメインに対する事実的正確な回答を生成する。
私たちのAgMMUは、詳細な視覚観察と正確な知識を結びつけて診断、例えば、害虫の識別、管理指示など、最も社会的に有益な分野である農業に重点を置いています。
私たちのデータセットの中核的な特徴として、現実のユーザと認可された農業専門家との間の116,231件の会話から、すべての事実、質問、回答が抽出されます。
GPT-4o、LLaMAモデル、人間の検証を備えた3段階のデータセットキュレーションパイプラインの後、AgMMUは5,460のマルチチョイス質問(MCQ)とオープンエンド質問(OEQ)の評価セットを備えている。
また,205,399点の農業知識情報(病原性識別,症状記述,管理指示,昆虫・害虫識別,種識別など)を含む開発セットも提供する。
マルチモーダルな事実データセットとして、既存のVLMは、詳細な認識と事実知識の両方を必要とする問題で重大な課題に直面していることが明らかになった。
さらに、オープンソースのVLMは、プロプライエタリなVLMに比べて、大きなパフォーマンス差を示している。
知識集約型VLMの実現を目的として,LLaVA-1.5評価精度を最大3.1%向上させる開発セットを用いた微調整実験を行った。
我々は、AgMMUが農業に特化した評価ベンチマークと、知識集約的な専門知識を汎用VLMに組み込むための開発スイートとして機能することを願っている。
関連論文リスト
- MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - ShizishanGPT: An Agricultural Large Language Model Integrating Tools and Resources [1.1493479235601496]
シジシャンGPTはRetrieval Augmented Generationフレームワークとエージェントアーキテクチャに基づく農業のためのインテリジェントな質問応答システムである。
ShizishanGPTは5つの主要なモジュールから構成される: 一般的な質問に答えるための汎用的なGPT-4ベースのモジュール; 大きな言語モデルの知識をタイムリーに更新できない問題に補償する検索エンジンモジュール。
論文 参考訳(メタデータ) (2024-09-20T14:30:45Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on
Agriculture [2.4184993026516213]
我々は、微調整とRAGのためのパイプラインを提案し、人気のあるLarge Language Modelのトレードオフを提示する。
この結果から,データセット生成パイプラインの有効性が示唆された。
論文 参考訳(メタデータ) (2024-01-16T14:44:47Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。