論文の概要: APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentatio
- arxiv url: http://arxiv.org/abs/2406.08372v1
- Date: Wed, 12 Jun 2024 16:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:06:55.913080
- Title: APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentatio
- Title(参考訳): APSeg: クロスドメインなFew-Shotセマンティックセマンティックセグメンティクスのためのオートプロンプトネットワーク
- Authors: Weizhao He, Yang Zhang, Wei Zhuo, Linlin Shen, Jiaqi Yang, Songhe Deng, Liang Sun,
- Abstract要約: クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。
提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
- 参考スコア(独自算出の注目度): 33.90244697752314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot semantic segmentation (FSS) endeavors to segment unseen classes with only a few labeled samples. Current FSS methods are commonly built on the assumption that their training and application scenarios share similar domains, and their performances degrade significantly while applied to a distinct domain. To this end, we propose to leverage the cutting-edge foundation model, the Segment Anything Model (SAM), for generalization enhancement. The SAM however performs unsatisfactorily on domains that are distinct from its training data, which primarily comprise natural scene images, and it does not support automatic segmentation of specific semantics due to its interactive prompting mechanism. In our work, we introduce APSeg, a novel auto-prompt network for cross-domain few-shot semantic segmentation (CD-FSS), which is designed to be auto-prompted for guiding cross-domain segmentation. Specifically, we propose a Dual Prototype Anchor Transformation (DPAT) module that fuses pseudo query prototypes extracted based on cycle-consistency with support prototypes, allowing features to be transformed into a more stable domain-agnostic space. Additionally, a Meta Prompt Generator (MPG) module is introduced to automatically generate prompt embeddings, eliminating the need for manual visual prompts. We build an efficient model which can be applied directly to target domains without fine-tuning. Extensive experiments on four cross-domain datasets show that our model outperforms the state-of-the-art CD-FSS method by 5.24% and 3.10% in average accuracy on 1-shot and 5-shot settings, respectively.
- Abstract(参考訳): Few-shot semantic segmentation (FSS) は、いくつかのラベル付きサンプルで未確認のクラスをセグメンテーションする試みである。
現在のFSSメソッドは、トレーニングとアプリケーションシナリオが類似したドメインを共有しているという仮定に基づいて構築されている。
そこで我々は,最先端の基盤モデルであるSAM(Segment Anything Model)を一般化の強化に活用することを提案する。
しかしSAMは、主に自然のシーン画像を構成するトレーニングデータとは異なる領域で不満足に動作し、対話的なプロンプト機構のため、特定のセマンティクスの自動セグメンテーションをサポートしない。
本研究では,クロスドメイン・マイクロショットセマンティックセマンティックセマンティックセマンティクス(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介した。
具体的には,Dual Prototype Anchor Transformation (DPAT)モジュールを提案する。このモジュールは,サポートプロトタイプとサイクル整合性に基づいて抽出された疑似クエリプロトタイプを融合し,より安定したドメインに依存しない空間に機能を変換することができる。
さらに、メタプロンプトジェネレータ(MPG)モジュールを導入して、手動による視覚的なプロンプトを不要にし、プロンプトの埋め込みを自動的に生成する。
我々は、微調整なしでターゲットドメインに直接適用できる効率的なモデルを構築した。
4つのクロスドメインデータセットの大規模な実験により、我々のモデルは1ショット設定と5ショット設定の平均精度をそれぞれ5.24%および3.10%向上させ、最先端のCD-FSS法より優れていることが示された。
関連論文リスト
- TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [44.134340976905655]
本研究は,Segment Anything Model(SAM)に基づくタスク適応型プロンプトフレームワークを提案する。
独自の生成アプローチを使用して、包括的なモデル構造と特殊なプロトタイプ計算を併用する。
タスク固有かつ重み付けされたガイダンスの後、SAMの豊富な特徴情報は、クロスドミナン・ショット・セグメンテーションにおいてよりよく学習できる。
論文 参考訳(メタデータ) (2024-09-09T07:43:58Z) - Cross-Domain Few-Shot Semantic Segmentation via Doubly Matching Transformation [26.788260801305974]
Cross-Domain Few-shot Semantic (CD-FSS)は、いくつかのラベル付きイメージで異なるドメインからクラスをセグメントできる一般化モデルのトレーニングを目的としている。
従来の研究は、CD-FSSに対処する際の特徴変換の有効性を証明してきた。
本稿では、この問題を解決するために、DMTNet(Doubly Matching Transformation-based Network)を提案する。
論文 参考訳(メタデータ) (2024-05-24T06:47:43Z) - Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation [40.667166043101076]
多様なターゲットドメインスタイルをソースドメインに修正するための小さなアダプタを提案する。
アダプタは、さまざまな合成対象ドメインから画像特徴を修正して、ソースドメインと整合するように訓練される。
提案手法は,ドメイン間複数ショットセマンティックセマンティックセグメンテーションタスクにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-04-16T07:07:40Z) - RestNet: Boosting Cross-Domain Few-Shot Segmentation with Residual
Transformation Network [4.232614032390374]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、注釈付きサンプルの数が限られている未確認領域における意味セグメンテーションを実現することを目的としている。
ドメイン内サポートクエリの特徴情報を保持しながら知識伝達を容易にする新しい残差変換ネットワーク(RestNet)を提案する。
論文 参考訳(メタデータ) (2023-08-25T16:13:22Z) - Cross-domain Few-shot Segmentation with Transductive Fine-tuning [29.81009103722184]
本稿では,数ショットの条件下でのクエリ画像の集合に基づいて,ベースモデルをトランスダクティブに微調整することを提案する。
提案手法は,すべてのクロスドメインタスクにおいて,FSSモデルの性能を一貫して,かつ著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T06:44:41Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - Semantic-Aware Domain Generalized Segmentation [67.49163582961877]
ソースドメインでトレーニングされたディープモデルは、異なるデータ分布を持つ未確認対象ドメインで評価された場合、一般化に欠ける。
セマンティック・アウェア・正規化(SAN)とセマンティック・アウェア・ホワイトニング(SAW)の2つの新しいモジュールを含むフレームワークを提案する。
提案手法は,様々なバックボーンネットワークにおいて,既存の最先端ネットワークよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-04-02T09:09:59Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。