論文の概要: AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing
- arxiv url: http://arxiv.org/abs/2409.17453v1
- Date: Thu, 26 Sep 2024 01:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:40:01.068373
- Title: AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing
- Title(参考訳): リモートセンシングにおけるFew-shot Segmentationのためのエージェントマイニング変換器AgMTR
- Authors: Hanbo Bi, Yingchao Feng, Yongqiang Mao, Jianning Pei, Wenhui Diao, Hongqi Wang, Xian Sun,
- Abstract要約: Few-shot (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。
以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。
極端にクラス内変異や乱雑な背景を持つリモートセンシングシナリオでは、そのようなピクセルレベルの相関が大きなミスマッチを引き起こす可能性がある。
本稿では,エージェントレベルの意味的相関を構築するために,一組の局所認識エージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
- 参考スコア(独自算出の注目度): 12.91626624625134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot Segmentation (FSS) aims to segment the interested objects in the query image with just a handful of labeled samples (i.e., support images). Previous schemes would leverage the similarity between support-query pixel pairs to construct the pixel-level semantic correlation. However, in remote sensing scenarios with extreme intra-class variations and cluttered backgrounds, such pixel-level correlations may produce tremendous mismatches, resulting in semantic ambiguity between the query foreground (FG) and background (BG) pixels. To tackle this problem, we propose a novel Agent Mining Transformer (AgMTR), which adaptively mines a set of local-aware agents to construct agent-level semantic correlation. Compared with pixel-level semantics, the given agents are equipped with local-contextual information and possess a broader receptive field. At this point, different query pixels can selectively aggregate the fine-grained local semantics of different agents, thereby enhancing the semantic clarity between query FG and BG pixels. Concretely, the Agent Learning Encoder (ALE) is first proposed to erect the optimal transport plan that arranges different agents to aggregate support semantics under different local regions. Then, for further optimizing the agents, the Agent Aggregation Decoder (AAD) and the Semantic Alignment Decoder (SAD) are constructed to break through the limited support set for mining valuable class-specific semantics from unlabeled data sources and the query image itself, respectively. Extensive experiments on the remote sensing benchmark iSAID indicate that the proposed method achieves state-of-the-art performance. Surprisingly, our method remains quite competitive when extended to more common natural scenarios, i.e., PASCAL-5i and COCO-20i.
- Abstract(参考訳): Few-shot Segmentation (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。
以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。
しかし、極端にクラス内の変化や背景が散らばったリモートセンシングのシナリオでは、そのようなピクセルレベルの相関は膨大なミスマッチを引き起こし、クエリフォアグラウンド(FG)とバックグラウンド(BG)のセマンティックな曖昧さをもたらす可能性がある。
この問題に対処するため,エージェントレベルの意味的相関を構築するために,一組のローカルエージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
ピクセルレベルのセマンティクスと比較して、与えられたエージェントは局所的なコンテキスト情報を備え、より広い受容領域を有する。
この時点で、異なるクエリピクセルは、異なるエージェントのきめ細かいローカルセマンティクスを選択的に集約することができ、クエリFGとBGピクセル間のセマンティクスの明確性を高めることができる。
具体的には、エージェント学習エンコーダ(ALE)が最初に提案され、異なるエージェントが異なるローカル領域下でサポートセマンティクスを集約するように配置する最適なトランスポートプランを策定する。
そして、エージェントをさらに最適化するために、エージェント集約デコーダ(AAD)とセマンティックアライメントデコーダ(SAD)をそれぞれ、ラベルのないデータソースとクエリイメージ自体から貴重なクラス固有のセマンティクスをマイニングするための限定的なサポートセットを分解するように構成する。
リモートセンシングベンチマークiSAIDの大規模な実験により,提案手法が最先端の性能を達成することを示す。
驚いたことに,本手法はPASCAL-5iやCOCO-20iといった,より一般的な自然シナリオに拡張されても,競争力は保たれる。
関連論文リスト
- Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of
High-resolution Remote Sensing Imagery based on Reinforcement Learning [8.124633573706763]
画像パッチ外の適切なスケールコンテキスト情報を適応的にキャプチャする動的スケール認識フレームワークGeoAgentを提案する。
現在の画像パッチの位置を識別する能力を高めるために,特徴指標モジュールを提案する。
2つの公開データセットと新たに構築したデータセット WUSU を用いて実験した結果,GeoAgent が従来のセグメンテーション手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-27T02:48:04Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z) - Super-Resolution Domain Adaptation Networks for Semantic Segmentation
via Pixel and Output Level Aligning [4.500622871756055]
本稿では、新しいエンドツーエンドセマンティックセマンティックセマンティクスネットワーク、すなわち超解法ドメイン適応ネットワーク(SRDA-Net)を設計する。
SRDA-Netは,超分解能タスクとドメイン適応タスクを同時に達成し,リモートセンシング画像のセマンティックセグメンテーションの必要性を満たす。
異なる解像度の2つのリモートセンシングデータセットの実験結果から、SRDA-Netは最先端の手法に対して好適に機能することが示された。
論文 参考訳(メタデータ) (2020-05-13T15:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。