論文の概要: AgroVG: A Large-Scale Multi-Source Benchmark for Agricultural Visual Grounding
- arxiv url: http://arxiv.org/abs/2605.22034v1
- Date: Thu, 21 May 2026 06:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.113195
- Title: AgroVG: A Large-Scale Multi-Source Benchmark for Agricultural Visual Grounding
- Title(参考訳): AgroVG: 農業用ビジュアルグラウンドのための大規模マルチソースベンチマーク
- Authors: Haocheng Li, Juepeng Zheng, Zenghao Yang, Kaiqi Du, Guilong Xiao, Gengmeng Pu, Haohuan Fu, Jianxi Huang,
- Abstract要約: 一般化された集合予測として農業接地を定式化するベンチマークである textbfAgroVG を導入する。
AgroVGは6つのファミリーすべてにわたるバウンディングボックスのグラウンドと、信頼できるインスタンスレベルのピクセルアノテーションを持つソースに基づくインスタンスマスクグラウンドをサポートする。
- 参考スコア(独自算出の注目度): 8.14714857077801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding, the task of localizing objects described by natural-language expressions, is a foundational capability for agricultural AI systems, enabling applications such as selective weeding, disease monitoring, and targeted harvesting. Reliable evaluation of agricultural visual grounding remains challenging because agricultural targets are often small, repetitive, occluded, or irregularly shaped, and instructions may refer to one, many, or no objects in an image. Evaluating this capability therefore requires jointly testing localization accuracy, target-set completeness, and existence-aware abstention. To address these challenges, we introduce \textbf{AgroVG}, a multi-source benchmark that formulates agricultural grounding as generalized set prediction: given an image and a referring expression, a model must return all matching target instances or abstain when no target is present. AgroVG contains 10{,}071 annotation-grounded image-query pairs from ten source datasets across six target families: crop/weed, fruit, wheat head, pest, plant disease, and tree canopy. It supports bounding-box grounding (T1) across all six families and instance-mask grounding (T2) on sources with reliable instance-level pixel annotations, with queries covering single-target, multi-target, and target-absent regimes. AgroVG further provides task-specific protocols for box-set matching and query-level mask coverage. Zero-shot evaluation of 26 model configurations spanning closed-source MLLMs, open-source VLMs, and specialized grounding systems reveals persistent gaps: the best multi-target Set-$F_1$ reaches only 0.35, and the best positive-query mask success rate at IoU@0.75 remains below 0.17. Data and code are available at https://anonymous.4open.science/r/AgroVG-5172/ .
- Abstract(参考訳): 自然言語表現によって記述されたオブジェクトをローカライズするタスクであるビジュアルグラウンド(Visual Grounding)は、農業用AIシステムの基本機能であり、選択的雑草、病気の監視、ターゲット収穫などの応用を可能にする。
農業の視覚的接地に対する信頼性の高い評価は、しばしば小さな、反復的、隠蔽的、不規則な形をしており、指示は画像の中の1つ、多く、または全くの物体を指す可能性があるため、依然として困難である。
そのため、この能力を評価するには、ローカライゼーションの精度、目標セットの完全性、存在認識の棄却を共同でテストする必要がある。
これらの課題に対処するために, 画像と参照式が与えられた場合, ターゲットが存在しない場合には, モデルがすべての一致したターゲットインスタンスを返さなければならない, あるいは不在である, という, 一般的な集合予測として農業基盤を定式化するマルチソースベンチマークである \textbf{AgroVG} を導入する。
AgroVGには、10{,}071の注釈付き画像クエリーペアがあり、作物と雑草、果物、小麦の頭、害虫、植物病、樹木の天蓋という6つのターゲットファミリーの10のソースデータセットから作成されている。
6つのファミリーすべてにまたがるバウンディングボックスグラウンド(T1)と、信頼性の高いインスタンスレベルのピクセルアノテーションを持つソース上でのインスタンスマスクグラウンド(T2)をサポートし、単一のターゲット、マルチターゲット、ターゲット依存のレシエーションをカバーするクエリをサポートする。
AgroVGはさらに、ボックスセットマッチングとクエリレベルのマスクカバレッジのためのタスク固有のプロトコルを提供する。
クローズドソースMLLM、オープンソースのVLM、特別なグラウンドシステムにまたがる26のモデル構成のゼロショット評価では、永続的なギャップが明らかになっている。
データとコードはhttps://anonymous.4open.science/r/AgroVG-5172/で公開されている。
関連論文リスト
- PRUE: A Practical Recipe for Field Boundary Segmentation at Scale [50.194423500109025]
本研究では,大域境界線決定のためのセグメント化と地理空間基盤モデル(GFM)を初めて体系的に評価する。
U-Netセマンティックセマンティックセグメンテーションモデルは、パフォーマンスとデプロイメントのメトリクスのスイートにおいて、インスタンスベースとGFMの代替よりも優れています。
我々のアプローチは、モデル設計、トレーニング、推論にまたがる、信頼性があり、スケーラブルで再現可能なフィールド境界記述のための実践的なフレームワークを提供します。
論文 参考訳(メタデータ) (2026-03-28T02:47:46Z) - TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation [71.39112735716172]
TerraScopeは、ピクセル地上の地理空間的推論を提供する統合視覚言語モデルである。
また,画素接地による空間的推論のための最初のベンチマークであるTerraScope-Benchを提案する。
論文 参考訳(メタデータ) (2026-03-19T15:38:02Z) - Multi-label Instance-level Generalised Visual Grounding in Agriculture [7.828057950225485]
視覚的グラウンドリング(VG)は、言語で参照される物体をローカライズするものであり、農業では未探索である。
Weed-VGはマルチラベルの階層的関連性スコアと階層的リグレッションを組み込んだモジュラーフレームワークである。
論文 参考訳(メタデータ) (2026-03-05T06:55:52Z) - Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation [6.56750055693609]
作物雑草の細粒化は、精密農業における標的除草剤の応用に不可欠である。
既存のディープラーニングモデルは、データセット固有の視覚的特徴に依存するため、一般化に苦慮している。
この制限に対処する新しいフレームワークであるビジョン・ランゲージ・ウィード(VL-WS)を提案する。
論文 参考訳(メタデータ) (2026-02-27T04:53:18Z) - AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。
この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文 参考訳(メタデータ) (2026-02-17T03:12:57Z) - Are vision-language models ready to zero-shot replace supervised classification models in agriculture? [0.8594140167290097]
視覚モデル(VLM)は、視覚認識タスクのための汎用的なソリューションとして提案されている。
我々は、AgMLコレクションから27の農業分類データセットに基づいて、多様なオープンおよびクローズドソースのVLMをベンチマークする。
論文 参考訳(メタデータ) (2025-12-17T21:22:44Z) - Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping [10.807010511060042]
TomatoMAPはSolanum lycopersicumの包括的なデータセットである。
我々のデータセットには64,464枚のRGB画像が含まれており、4つのカメラ高度角から12の異なる植物ポーズを捉えています。
我々は,3,616個の高解像度画像サブセットをピクセル単位で意味づけし,細粒度表現のためのインスタンスセグメンテーションアノテーションを提供する。
論文 参考訳(メタデータ) (2025-07-15T12:56:13Z) - AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。
AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。
5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-10T15:13:00Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。