論文の概要: Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind
- arxiv url: http://arxiv.org/abs/2505.12207v1
- Date: Sun, 18 May 2025 02:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.093889
- Title: Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind
- Title(参考訳): 大規模マルチモーダルモデルは農業シーンに理解できるか?AgroMindによるベンチマーク
- Authors: Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng,
- Abstract要約: 我々は農業リモートセンシング(RS)のベンチマークであるAgroMindを紹介する。
AgroMindは、空間知覚、オブジェクト理解、シーン理解、シーン推論の4つのタスクディメンションをカバーしている。
AgroMind上で18のオープンソースLMMと3つのクローズドソースモデルを評価する。
- 参考スコア(独自算出の注目度): 16.96145027280737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) has demonstrated capabilities across various domains, but comprehensive benchmarks for agricultural remote sensing (RS) remain scarce. Existing benchmarks designed for agricultural RS scenarios exhibit notable limitations, primarily in terms of insufficient scene diversity in the dataset and oversimplified task design. To bridge this gap, we introduce AgroMind, a comprehensive agricultural remote sensing benchmark covering four task dimensions: spatial perception, object understanding, scene understanding, and scene reasoning, with a total of 13 task types, ranging from crop identification and health monitoring to environmental analysis. We curate a high-quality evaluation set by integrating eight public datasets and one private farmland plot dataset, containing 25,026 QA pairs and 15,556 images. The pipeline begins with multi-source data preprocessing, including collection, format standardization, and annotation refinement. We then generate a diverse set of agriculturally relevant questions through the systematic definition of tasks. Finally, we employ LMMs for inference, generating responses, and performing detailed examinations. We evaluated 18 open-source LMMs and 3 closed-source models on AgroMind. Experiments reveal significant performance gaps, particularly in spatial reasoning and fine-grained recognition, it is notable that human performance lags behind several leading LMMs. By establishing a standardized evaluation framework for agricultural RS, AgroMind reveals the limitations of LMMs in domain knowledge and highlights critical challenges for future work. Data and code can be accessed at https://rssysu.github.io/AgroMind/.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、様々な領域で機能を示すが、農業リモートセンシング(RS)のための包括的なベンチマークは乏しい。
農業用RSシナリオ用に設計された既存のベンチマークは、主にデータセットにおけるシーンの多様性の不足と過剰に単純化されたタスク設計の観点から、顕著な制限を示している。
このギャップを埋めるために、AgroMindは、空間認識、オブジェクト理解、シーン理解、シーン推論の4つの課題を網羅した総合的な農業リモートセンシングベンチマークである。
25,026のQAペアと15,556のイメージを含む8つのパブリックデータセットと1つのプライベートな農地プロットデータセットを統合することで、高品質な評価セットをキュレートする。
パイプラインは、コレクション、フォーマットの標準化、アノテーションの改良を含む、複数ソースのデータ前処理から始まる。
次に,課題の体系的定義を通じて,農業関連質問の多様なセットを生成する。
最後に,LMMを用いて推論,応答生成,詳細な検査を行う。
AgroMind上で18のオープンソースLMMと3つのクローズドソースモデルを評価した。
実験の結果,特に空間的推論や微粒化認識において顕著な性能差がみられた。
農業用RSの標準化された評価フレームワークを確立することで、AgroMindはドメイン知識におけるLMMの限界を明らかにし、将来の作業における重要な課題を強調します。
データとコードはhttps://rssysu.github.io/AgroMind/でアクセスできる。
関連論文リスト
- Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。
これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。
本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-07T07:32:41Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - AgriBench: A Hierarchical Agriculture Benchmark for Multimodal Large Language Models [4.12825661607328]
AgriBenchは農業用マルチモーダル言語モデル(MM-LLM)を評価するために設計された最初のベンチマークである。
我々は,1,784の景観イメージ,セグメンテーションマスク,深度マップ,詳細なアノテーションを含むマルチモーダル農業データセットMM-LUCASを提案する。
本研究は,農業におけるMM-LLMの進歩における画期的な視点を示し,現在進行中であり,専門知識に基づくMM-LLMの今後の発展と革新に価値ある洞察を提供する。
論文 参考訳(メタデータ) (2024-11-30T12:59:03Z) - AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。
我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。
AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文 参考訳(メタデータ) (2024-10-10T22:38:26Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - PhenoBench -- A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain [29.395926321984565]
本稿では,実際の農業分野の意味論的解釈のための注釈付きデータセットとベンチマークを提案する。
UAVで記録したデータセットは、作物や雑草の高品質でピクセル単位のアノテーションを提供するだけでなく、作物の葉のインスタンスも同時に提供する。
異なるフィールドで構成された隠れテストセット上で、さまざまなタスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2023-06-07T16:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。