論文の概要: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation
- arxiv url: http://arxiv.org/abs/2409.05393v2
- Date: Sat, 28 Dec 2024 09:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:48.699301
- Title: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation
- Title(参考訳): TAVP: クロスドメインなFew-shotセグメンテーションのためのタスク適応型ビジュアルプロンプト
- Authors: Jiaqi Yang, Yaning Zhang, Jingxi Hu, Xiangjian He, Linlin Shen, Guoping Qiu,
- Abstract要約: 本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
- 参考スコア(独自算出の注目度): 40.49924427388922
- License:
- Abstract: While large visual models (LVM) demonstrated significant potential in image understanding, due to the application of large-scale pre-training, the Segment Anything Model (SAM) has also achieved great success in the field of image segmentation, supporting flexible interactive cues and strong learning capabilities. However, SAM's performance often falls short in cross-domain and few-shot applications. Previous work has performed poorly in transferring prior knowledge from base models to new applications. To tackle this issue, we propose a task-adaptive auto-visual prompt framework, a new paradigm for Cross-dominan Few-shot segmentation (CD-FSS). First, a Multi-level Feature Fusion (MFF) was used for integrated feature extraction as prior knowledge. Besides, we incorporate a Class Domain Task-Adaptive Auto-Prompt (CDTAP) module to enable class-domain agnostic feature extraction and generate high-quality, learnable visual prompts. This significant advancement uses a unique generative approach to prompts alongside a comprehensive model structure and specialized prototype computation. While ensuring that the prior knowledge of SAM is not discarded, the new branch disentangles category and domain information through prototypes, guiding it in adapting the CD-FSS. Comprehensive experiments across four cross-domain datasets demonstrate that our model outperforms the state-of-the-art CD-FSS approach, achieving an average accuracy improvement of 1.3\% in the 1-shot setting and 11.76\% in the 5-shot setting.
- Abstract(参考訳): 大きな視覚モデル(LVM)は画像理解において大きな可能性を示したが、大規模な事前学習の適用により、SAM(Segment Anything Model)は画像セグメンテーションの分野でも大きな成功を収め、フレキシブルなインタラクティブなキューと強力な学習機能をサポートしている。
しかし、SAMのパフォーマンスはクロスドメインや少数ショットのアプリケーションでは不十分であることが多い。
以前の作業は、ベースモデルから新しいアプリケーションに事前の知識を移すことで、うまくいきませんでした。
そこで本研究では,CD-FSS(Cross-dominan Few-shot segmentation)の新しいパラダイムである,タスク適応型自動視覚プロンプトフレームワークを提案する。
まず,MFF (Multi-level Feature Fusion) を用いて先行知識として特徴抽出を行った。
さらに、クラスドメイン非依存の機能抽出を可能にし、高品質で学習可能な視覚的プロンプトを生成するために、クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んだ。
この大きな進歩は、包括的なモデル構造と特殊なプロトタイプ計算と並行して、ユニークな生成的アプローチを用いている。
SAMの事前の知識が破棄されないことを保証する一方で、新しいブランチはプロトタイプを通じてカテゴリとドメイン情報を分離し、CD-FSSの適応を導く。
4つのクロスドメインデータセットにわたる総合的な実験により、我々のモデルは最先端のCD-FSSアプローチよりも優れており、1ショット設定では1.3\%、5ショット設定では11.76\%の平均精度向上を実現している。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。
DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-19T07:28:33Z) - EMPL: A novel Efficient Meta Prompt Learning Framework for Few-shot Unsupervised Domain Adaptation [22.586094394391747]
本稿では,FS-UDAのためのメタプロンプト学習フレームワークを提案する。
このフレームワークでは、事前訓練されたCLIPモデルを機能学習ベースモデルとして使用しています。
5-way 1-shotでは少なくとも15.4%,5-way 5-shotでは8.7%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-07-04T17:13:06Z) - APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation [33.90244697752314]
クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。
提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
論文 参考訳(メタデータ) (2024-06-12T16:20:58Z) - Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation [0.0]
クロスドメイン小ショットセグメンテーション (CD-FSS) が登場した。
テスト時間タスク適応がCD-FSSの成功の鍵であることを示す。
テスト時にラベル付きサンプル以外の画像は使用しないが,CD-FSSでは新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2024-02-27T15:43:53Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype
Enhancement [6.197356908000006]
Few-Shot (FSS) は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。
本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。
我々のアプローチは、エンコーダの層間にPAMを挿入するだけで、異なるバックボーンを持つ多様なFSSメソッドと互換性がある。
論文 参考訳(メタデータ) (2023-12-25T14:03:38Z) - Disentangled Feature Representation for Few-shot Image Classification [64.40410801469106]
そこで本研究では,DFRと呼ばれる新しいDistangled Feature Representationフレームワークを提案する。
DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。
一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-09-26T09:53:11Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。