論文の概要: Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind
- arxiv url: http://arxiv.org/abs/2505.12207v2
- Date: Mon, 04 Aug 2025 23:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.170084
- Title: Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind
- Title(参考訳): 大規模マルチモーダルモデルは農業シーンに理解できるか?AgroMindによるベンチマーク
- Authors: Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng,
- Abstract要約: 我々は農業リモートセンシング(RS)のベンチマークであるAgroMindを紹介する。
AgroMindは、空間知覚、オブジェクト理解、シーン理解、シーン推論の4つのタスクディメンションをカバーしている。
AgroMind上で20のオープンソースLMMと4つのクローズドソースモデルを評価する。
- 参考スコア(独自算出の注目度): 16.96145027280737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) has demonstrated capabilities across various domains, but comprehensive benchmarks for agricultural remote sensing (RS) remain scarce. Existing benchmarks designed for agricultural RS scenarios exhibit notable limitations, primarily in terms of insufficient scene diversity in the dataset and oversimplified task design. To bridge this gap, we introduce AgroMind, a comprehensive agricultural remote sensing benchmark covering four task dimensions: spatial perception, object understanding, scene understanding, and scene reasoning, with a total of 13 task types, ranging from crop identification and health monitoring to environmental analysis. We curate a high-quality evaluation set by integrating eight public datasets and one private farmland plot dataset, containing 27,247 QA pairs and 19,615 images. The pipeline begins with multi-source data pre-processing, including collection, format standardization, and annotation refinement. We then generate a diverse set of agriculturally relevant questions through the systematic definition of tasks. Finally, we employ LMMs for inference, generating responses, and performing detailed examinations. We evaluated 20 open-source LMMs and 4 closed-source models on AgroMind. Experiments reveal significant performance gaps, particularly in spatial reasoning and fine-grained recognition, it is notable that human performance lags behind several leading LMMs. By establishing a standardized evaluation framework for agricultural RS, AgroMind reveals the limitations of LMMs in domain knowledge and highlights critical challenges for future work. Data and code can be accessed at https://rssysu.github.io/AgroMind/.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、様々な領域で機能を示すが、農業リモートセンシング(RS)のための包括的なベンチマークは乏しい。
農業用RSシナリオ用に設計された既存のベンチマークは、主にデータセットにおけるシーンの多様性の不足と過剰に単純化されたタスク設計の観点から、顕著な制限を示している。
このギャップを埋めるために、AgroMindは、空間認識、オブジェクト理解、シーン理解、シーン推論の4つの課題を網羅した総合的な農業リモートセンシングベンチマークである。
8つの公開データセットと1つの私有農地プロットデータセットを統合し、27,247のQAペアと19,615の画像を含む高品質な評価セットをキュレートする。
パイプラインは、コレクション、フォーマットの標準化、アノテーションの改良を含む、マルチソースデータの事前処理から始まる。
次に,課題の体系的定義を通じて,農業関連質問の多様なセットを生成する。
最後に,LMMを用いて推論,応答生成,詳細な検査を行う。
AgroMind上で20のオープンソースLMMと4つのクローズドソースモデルを評価した。
実験の結果,特に空間的推論や微粒化認識において顕著な性能差がみられた。
農業用RSの標準化された評価フレームワークを確立することで、AgroMindはドメイン知識におけるLMMの限界を明らかにし、将来の作業における重要な課題を強調します。
データとコードはhttps://rssysu.github.io/AgroMind/でアクセスできる。
関連論文リスト
- AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models [19.265932725554833]
本稿では,中国初の総合農業ベンチマークであるAgriEvalを提案する。
AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、4つの中核的な認知シナリオに対処している。
AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
論文 参考訳(メタデータ) (2025-07-29T12:58:27Z) - AgroBench: Vision-Language Model Benchmark in Agriculture [25.52955831089068]
AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。
私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
論文 参考訳(メタデータ) (2025-07-28T04:58:29Z) - Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。
これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。
本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-07T07:32:41Z) - Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文 参考訳(メタデータ) (2025-03-03T09:18:43Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - AgriBench: A Hierarchical Agriculture Benchmark for Multimodal Large Language Models [4.12825661607328]
AgriBenchは農業用マルチモーダル言語モデル(MM-LLM)を評価するために設計された最初のベンチマークである。
我々は,1,784の景観イメージ,セグメンテーションマスク,深度マップ,詳細なアノテーションを含むマルチモーダル農業データセットMM-LUCASを提案する。
本研究は,農業におけるMM-LLMの進歩における画期的な視点を示し,現在進行中であり,専門知識に基づくMM-LLMの今後の発展と革新に価値ある洞察を提供する。
論文 参考訳(メタデータ) (2024-11-30T12:59:03Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。
我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。
AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文 参考訳(メタデータ) (2024-10-10T22:38:26Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - PhenoBench -- A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain [29.395926321984565]
本稿では,実際の農業分野の意味論的解釈のための注釈付きデータセットとベンチマークを提案する。
UAVで記録したデータセットは、作物や雑草の高品質でピクセル単位のアノテーションを提供するだけでなく、作物の葉のインスタンスも同時に提供する。
異なるフィールドで構成された隠れテストセット上で、さまざまなタスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2023-06-07T16:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。