論文の概要: FarmMind: Reasoning-Query-Driven Dynamic Segmentation for Farmland Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2601.22809v1
- Date: Fri, 30 Jan 2026 10:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.388508
- Title: FarmMind: Reasoning-Query-Driven Dynamic Segmentation for Farmland Remote Sensing Images
- Title(参考訳): FarmMind: リモートセンシング画像のための推論クエリ駆動動的セグメンテーション
- Authors: Haiyang Wu, Weiliang Mu, Jipeng Zhang, Zhong Dandan, Zhuofei Du, Haifeng Li, Tao Chao,
- Abstract要約: 農地リモートセンシング画像(FRSI)セグメンテーションの手法は、一般的に静的セグメンテーションのパラダイムに従う。
そこで我々はFarmMindというFRSIのための推論クエリ駆動動的セグメンテーションフレームワークを提案する。
実験により、FarmMindは既存の方法と比較して、セグメンテーション性能とより強力な一般化能力を達成することが示された。
- 参考スコア(独自算出の注目度): 16.340857159555767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for farmland remote sensing image (FRSI) segmentation generally follow a static segmentation paradigm, where analysis relies solely on the limited information contained within a single input patch. Consequently, their reasoning capability is limited when dealing with complex scenes characterized by ambiguity and visual uncertainty. In contrast, human experts, when interpreting remote sensing images in such ambiguous cases, tend to actively query auxiliary images (such as higher-resolution, larger-scale, or temporally adjacent data) to conduct cross-verification and achieve more comprehensive reasoning. Inspired by this, we propose a reasoning-query-driven dynamic segmentation framework for FRSIs, named FarmMind. This framework breaks through the limitations of the static segmentation paradigm by introducing a reasoning-query mechanism, which dynamically and on-demand queries external auxiliary images to compensate for the insufficient information in a single input image. Unlike direct queries, this mechanism simulates the thinking process of human experts when faced with segmentation ambiguity: it first analyzes the root causes of segmentation ambiguities through reasoning, and then determines what type of auxiliary image needs to be queried based on this analysis. Extensive experiments demonstrate that FarmMind achieves superior segmentation performance and stronger generalization ability compared with existing methods. The source code and dataset used in this work are publicly available at: https://github.com/WithoutOcean/FarmMind.
- Abstract(参考訳): 農地リモートセンシング画像(FRSI)セグメンテーションの既存の手法は、一般に静的セグメンテーションのパラダイムに従っており、分析は単一の入力パッチに含まれる限られた情報にのみ依存する。
したがって、曖昧さと視覚の不確実性を特徴とする複雑な場面を扱う場合、それらの推論能力は制限される。
対照的に、人間の専門家は、このような曖昧なケースでリモートセンシング画像を解釈する場合、補助画像(高解像度、大規模、時間的に隣接したデータなど)を積極的にクエリして、相互検証を行い、より包括的な推論を行う傾向にある。
そこで我々はFarmMindというFRSIのための推論クエリ駆動動的セグメンテーションフレームワークを提案する。
このフレームワークは静的セグメンテーションのパラダイムの限界を突破し、単一の入力画像において不十分な情報を補うために動的にオンデマンドで外部補助画像に問い合わせる推論クエリ機構を導入する。
直接クエリとは異なり、このメカニズムは、セグメンテーションの曖昧さに直面した時に人間の専門家の思考過程をシミュレートする:まず、推論を通してセグメンテーションの曖昧さの根本原因を分析し、この分析に基づいてどの補助イメージをクエリする必要があるかを決定する。
大規模な実験により、FarmMindは既存の方法よりも優れたセグメンテーション性能とより強力な一般化能力が得られることが示された。
この作業で使用されるソースコードとデータセットは、https://github.com/WithoutOcean/FarmMind.comで公開されている。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Self-supervised Few-shot Learning for Semantic Segmentation: An
Annotation-free Approach [4.855689194518905]
Few-shot semantic segmentation (FSS)は、医用画像解析の分野で大きな可能性を秘めている。
既存のFSS技術は注釈付きセマンティッククラスに大きく依存しており、医療画像には適さない。
本稿では,アノテーションに依存しない新たな自己教師型FSSフレームワークを提案する。その代わりに,支援画像から得られる固有ベクトルを利用して,クエリマスクを適応的に推定する。
論文 参考訳(メタデータ) (2023-07-26T18:33:30Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。