Fugu-MT 論文翻訳(概要): Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

論文の概要: Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

arxiv url: http://arxiv.org/abs/2602.23677v1
Date: Fri, 27 Feb 2026 04:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.25719
Title: Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation
Title（参考訳）: マルチドメイン作物雑草セグメンテーションのための視覚言語セマンティックグラウンドリング
Authors: Nazia Hossain, Xintong Jiang, Yu Tian, Philippe Seguin, O. Grant Clark, Shangpeng Sun,
Abstract要約: 作物雑草の細粒化は、精密農業における標的除草剤の応用に不可欠である。既存のディープラーニングモデルは、データセット固有の視覚的特徴に依存するため、一般化に苦慮している。この制限に対処する新しいフレームワークであるビジョン・ランゲージ・ウィード(VL-WS)を提案する。
参考スコア（独自算出の注目度）: 6.56750055693609
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Fine-grained crop-weed segmentation is essential for enabling targeted herbicide application in precision agriculture. However, existing deep learning models struggle to generalize across heterogeneous agricultural environments due to reliance on dataset-specific visual features. We propose Vision-Language Weed Segmentation (VL-WS), a novel framework that addresses this limitation by grounding pixel-level segmentation in semantically aligned, domain-invariant representations. Our architecture employs a dual-encoder design, where frozen Contrastive Language-Image Pretraining (CLIP) embeddings and task-specific spatial features are fused and modulated via Feature-wise Linear Modulation (FiLM) layers conditioned on natural language captions. This design enables image level textual descriptions to guide channel-wise feature refinement while preserving fine-grained spatial localization. Unlike prior works restricted to training and evaluation on single-source datasets, VL-WS is trained on a unified corpus that includes close-range ground imagery (robotic platforms) and high-altitude UAV imagery, covering diverse crop types, weed species, growth stages, and sensing conditions. Experimental results across four benchmark datasets demonstrate the effectiveness of our framework, with VL-WS achieving a mean Dice score of 91.64% and outperforming the CNN baseline by 4.98%. The largest gains occur on the most challenging weed class, where VL-WS attains 80.45% Dice score compared to 65.03% for the best baseline, representing a 15.42% improvement. VL-WS further maintains stable weed segmentation performance under limited target-domain supervision, indicating improved generalization and data efficiency. These findings highlight the potential of vision-language alignment to enable scalable, label-efficient segmentation models deployable across diverse real-world agricultural domains.
Abstract（参考訳）: 作物雑草の細粒化は、精密農業における標的除草剤の応用に不可欠である。しかし、既存のディープラーニングモデルは、データセット固有の視覚的特徴に依存するため、異種農業環境をまたいだ一般化に苦慮している。 VL-WS(Vision-Language Weed Segmentation)は,画素レベルのセグメンテーションを意味的に整列したドメイン不変表現でグルーピングすることで,この制限に対処する新しいフレームワークである。自然言語キャプションに条件付けされた特徴量線形変調 (FiLM) レイヤを介して, 凍結したコントラスト言語-画像事前学習 (CLIP) 埋め込みとタスク固有の空間的特徴を融合し, 変調する。この設計により、細粒度な空間的局所性を保持しながら、画像レベルのテキスト記述により、チャネルワイドな特徴改善を導出することができる。シングルソースデータセットのトレーニングと評価に制限された以前の作業とは異なり、VL-WSは、様々な作物の種類、雑草種、成長段階、および感知条件を含む、近距離地上画像(ロボティックプラットフォーム)と高高度UAV画像を含む統一コーパスで訓練されている。 VL-WSは平均Diceスコアを91.64%、CNNベースラインを4.98%上回る結果となった。最も難しい雑草のクラスでは、VL-WSが80.45%のDiceスコアを獲得し、ベストベースラインでは65.03%、改善率15.42%となっている。 VL-WSは、目標領域の限られた監督下での安定した雑草分断性能をさらに維持し、一般化とデータ効率の向上を示す。これらの知見は、様々な現実世界の農業領域に展開可能なスケーラブルでラベル効率の良いセグメンテーションモデルを実現するために、視覚言語アライメントの可能性を強調している。

関連論文リスト

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文参考訳（メタデータ） (2026-03-03T13:28:07Z)
Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
Region-based Cluster Discrimination for Visual Representation Learning [30.79223671093668]
Region-Aware Cluster Discrimination (RICE)は、地域レベルの視覚とOCR機能を強化する新しい手法である。 RICEは、セグメンテーション、密集検知、視覚知覚など、タスクにおける従来の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-07-26T17:47:09Z)
HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment [16.926158907882012]
本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
論文参考訳（メタデータ） (2025-06-16T19:05:33Z)
A large-scale image-text dataset benchmark for farmland segmentation [2.3412548557474797]
本稿では、農地の言語による記述について紹介し、農地区分用に設計された最初の微細テキスト画像テキストデータセットであるFarmSeg-VLについて述べる。時間次元では、全4シーズンをカバーしている。また、空間的次元の面では、中国の8つの典型的な農業地域をカバーしている。
論文参考訳（メタデータ） (2025-03-29T14:55:46Z)
Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。 DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文参考訳（メタデータ） (2024-12-09T06:34:23Z)
AgriCLIP: Adapting CLIP for Agriculture and Livestock via Domain-Specialized Cross-Model Alignment [35.35466045639057]
AgriCLIPは、農業と家畜の分野に特化したビジョン言語基盤モデルである。私たちのALiveデータセットは、作物、家畜、漁業をカバーしています。 AgriCLIPフレームワークは、平均ゼロショット分類精度で7.8%の絶対ゲインを達成する。
論文参考訳（メタデータ） (2024-10-02T10:33:49Z)
Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文参考訳（メタデータ） (2024-01-04T08:39:13Z)
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。 4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文参考訳（メタデータ） (2023-11-27T19:00:06Z)
I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文参考訳（メタデータ） (2023-01-03T15:19:48Z)
Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。提案したモデルをCityscapesデータセット上で検証する。
論文参考訳（メタデータ） (2021-08-28T01:33:38Z)
Context-self contrastive pretraining for crop type semantic segmentation [39.81074867563505]
提案したContext-Self Contrastive Loss (CSCL)は、セマンティックバウンダリをポップアップさせる埋め込み空間を学習する。衛星画像時系列(SITS)からの作物型セマンティックセマンティックセグメンテーションでは,サテライト境界における性能が重要なボトルネックとなる。より粒度の高い作物のクラスを得るための超解像における意味的セグメンテーションのプロセスを提案する。
論文参考訳（メタデータ） (2021-04-09T11:29:44Z)
Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation Method for Semantic Segmentation [97.8552697905657]
このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法である。本稿では,グローバルな視点とローカルな視点の両方から分布の整合性を促進できるASS(Alleviating Semantic-level Shift)を提案する。 GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。
論文参考訳（メタデータ） (2020-04-02T03:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。