Fugu-MT 論文翻訳(概要): Multi-label Instance-level Generalised Visual Grounding in Agriculture

論文の概要: Multi-label Instance-level Generalised Visual Grounding in Agriculture

arxiv url: http://arxiv.org/abs/2603.06699v1
Date: Thu, 05 Mar 2026 06:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:12.890954
Title: Multi-label Instance-level Generalised Visual Grounding in Agriculture
Title（参考訳）: 農業における多レベル総合視覚接地
Authors: Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi,
Abstract要約: 視覚的グラウンドリング(VG)は、言語で参照される物体をローカライズするものであり、農業では未探索である。 Weed-VGはマルチラベルの階層的関連性スコアと階層的リグレッションを組み込んだモジュラーフレームワークである。
参考スコア（独自算出の注目度）: 7.828057950225485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding field imagery such as detecting plants and distinguishing individual crop and weed instances is a central challenge in precision agriculture. Despite progress in vision-language tasks like captioning and visual question answering, Visual Grounding (VG), localising language-referred objects, remains unexplored in agriculture. A key reason is the lack of suitable benchmark datasets for evaluating grounding models in field conditions, where many plants look highly similar, appear at multiple scales, and the referred target may be absent from the image. To address these limitations, we introduce gRef-CW, the first dataset designed for generalised visual grounding in agriculture, including negative expressions. Benchmarking current state-of-the-art grounding models on gRef-CW reveals a substantial domain gap, highlighting their inability to ground instances of crops and weeds. Motivated by these findings, we introduce Weed-VG, a modular framework that incorporates multi-label hierarchical relevance scoring and interpolation-driven regression. Weed-VG advances instance-level visual grounding and provides a clear baseline for developing VG methods in precision agriculture. Code will be released upon acceptance.
Abstract（参考訳）: 植物の検出や個々の作物や雑草のインスタンスの識別といったフィールドイメージの理解は、精密農業における中心的な課題である。キャプションや視覚的質問応答といった視覚言語タスクの進歩にもかかわらず、言語参照オブジェクトをローカライズする視覚的グラウンドリング(VG)は農業では未探索のままである。主な理由は、多くの植物がよく似ているフィールド条件下でのグラウンドモデルを評価するための適切なベンチマークデータセットが欠如していることであり、参照対象は画像から欠落している可能性がある。これらの制約に対処するため,農業における視覚的基盤の一般化を目的とした最初のデータセットであるgRef-CWを紹介した。 gRef-CWで現在の最先端の接地モデルをベンチマークすると、相当なドメインギャップが明らかになり、作物や雑草の接地できないことが浮かび上がっている。これらの知見に触発されたWeed-VGは,多ラベル階層的関連度スコアリングと補間駆動回帰を組み込んだモジュラーフレームワークである。 Weed-VGは、インスタンスレベルの視覚的基盤を進化させ、精密農業におけるVG手法を開発するための明確なベースラインを提供する。コードは受理時にリリースされる。

関連論文リスト

AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文参考訳（メタデータ） (2026-02-17T03:12:57Z)
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。 AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。 5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文参考訳（メタデータ） (2025-04-10T15:13:00Z)
Few-Shot Adaptation of Grounding DINO for Agricultural Domain [0.29998889086656577]
Grounding-DINOのようなオープンセットオブジェクト検出モデルは、テキストプロンプト入力に基づいて興味のある領域を検出する潜在的なソリューションを提供する。そこで本研究では,テキストエンコーダモジュールを除去することで,グラウンディング・ディノアーキテクチャを単純化する,効率的な数ショット適応手法を提案する。本手法は, 植物雑草の検出, 植物数, 昆虫の識別, 果実数, リモートセンシングタスクなど, 複数の農業データセットにまたがる優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-09T19:57:25Z)
WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields [0.7421845364041001]
雑草は作物の収穫が減少する主な原因の1つであるが、現在の雑草の慣行は、効率的で標的とした方法で雑草を管理するのに失敗している。農作物畑における作物と雑草のセマンティックスとインスタンスセグメンテーションのための新しいデータセットを提案する。
論文参考訳（メタデータ） (2025-02-18T18:13:19Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)
PhenoBench -- A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain [29.395926321984565]
本稿では,実際の農業分野の意味論的解釈のための注釈付きデータセットとベンチマークを提案する。 UAVで記録したデータセットは、作物や雑草の高品質でピクセル単位のアノテーションを提供するだけでなく、作物の葉のインスタンスも同時に提供する。異なるフィールドで構成された隠れテストセット上で、さまざまなタスクのベンチマークを提供する。
論文参考訳（メタデータ） (2023-06-07T16:04:08Z)
Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文参考訳（メタデータ） (2023-04-03T14:28:29Z)
End-to-end deep learning for directly estimating grape yield from ground-based imagery [53.086864957064876]
本研究は, ブドウ畑の収量推定に深層学習と併用した近位画像の応用を実証する。オブジェクト検出、CNN回帰、トランスフォーマーモデルという3つのモデルアーキテクチャがテストされた。本研究は,ブドウの収量予測における近位画像と深層学習の適用性を示した。
論文参考訳（メタデータ） (2022-08-04T01:34:46Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
UAV and Machine Learning Based Refinement of a Satellite-Driven Vegetation Index for Precision Agriculture [0.8399688944263843]
本稿では,深層学習技術に基づく新しい衛星画像補正フレームワークを提案する。無人航空機(UAV)が取得した高解像度画像から得られる情報を適切に活用する。セラルンガ・ダルバ (Serralunga d'Alba) のブドウ園は、検証のためのケーススタディとして選ばれた。
論文参考訳（メタデータ） (2020-04-29T18:34:48Z)
Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文参考訳（メタデータ） (2020-01-05T20:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。