論文の概要: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation
- arxiv url: http://arxiv.org/abs/2409.05393v2
- Date: Sat, 28 Dec 2024 09:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:48.699301
- Title: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation
- Title(参考訳): TAVP: クロスドメインなFew-shotセグメンテーションのためのタスク適応型ビジュアルプロンプト
- Authors: Jiaqi Yang, Yaning Zhang, Jingxi Hu, Xiangjian He, Linlin Shen, Guoping Qiu,
- Abstract要約: 本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
- 参考スコア(独自算出の注目度): 40.49924427388922
- License:
- Abstract: While large visual models (LVM) demonstrated significant potential in image understanding, due to the application of large-scale pre-training, the Segment Anything Model (SAM) has also achieved great success in the field of image segmentation, supporting flexible interactive cues and strong learning capabilities. However, SAM's performance often falls short in cross-domain and few-shot applications. Previous work has performed poorly in transferring prior knowledge from base models to new applications. To tackle this issue, we propose a task-adaptive auto-visual prompt framework, a new paradigm for Cross-dominan Few-shot segmentation (CD-FSS). First, a Multi-level Feature Fusion (MFF) was used for integrated feature extraction as prior knowledge. Besides, we incorporate a Class Domain Task-Adaptive Auto-Prompt (CDTAP) module to enable class-domain agnostic feature extraction and generate high-quality, learnable visual prompts. This significant advancement uses a unique generative approach to prompts alongside a comprehensive model structure and specialized prototype computation. While ensuring that the prior knowledge of SAM is not discarded, the new branch disentangles category and domain information through prototypes, guiding it in adapting the CD-FSS. Comprehensive experiments across four cross-domain datasets demonstrate that our model outperforms the state-of-the-art CD-FSS approach, achieving an average accuracy improvement of 1.3\% in the 1-shot setting and 11.76\% in the 5-shot setting.
- Abstract(参考訳): 大きな視覚モデル(LVM)は画像理解において大きな可能性を示したが、大規模な事前学習の適用により、SAM(Segment Anything Model)は画像セグメンテーションの分野でも大きな成功を収め、フレキシブルなインタラクティブなキューと強力な学習機能をサポートしている。
しかし、SAMのパフォーマンスはクロスドメインや少数ショットのアプリケーションでは不十分であることが多い。
以前の作業は、ベースモデルから新しいアプリケーションに事前の知識を移すことで、うまくいきませんでした。
そこで本研究では,CD-FSS(Cross-dominan Few-shot segmentation)の新しいパラダイムである,タスク適応型自動視覚プロンプトフレームワークを提案する。
まず,MFF (Multi-level Feature Fusion) を用いて先行知識として特徴抽出を行った。
さらに、クラスドメイン非依存の機能抽出を可能にし、高品質で学習可能な視覚的プロンプトを生成するために、クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んだ。
この大きな進歩は、包括的なモデル構造と特殊なプロトタイプ計算と並行して、ユニークな生成的アプローチを用いている。
SAMの事前の知識が破棄されないことを保証する一方で、新しいブランチはプロトタイプを通じてカテゴリとドメイン情報を分離し、CD-FSSの適応を導く。
4つのクロスドメインデータセットにわたる総合的な実験により、我々のモデルは最先端のCD-FSSアプローチよりも優れており、1ショット設定では1.3\%、5ショット設定では11.76\%の平均精度向上を実現している。
関連論文リスト
- Segment Any Class (SAC): Multi-Class Few-Shot Semantic Segmentation via Class Region Proposals [0.0]
本稿では,Segment Any Class (SAC) を提案する。Segment Any Class (SAC) は多クラスセグメンテーションのためにSAMをタスク適応する訓練不要のアプローチである。
SACはクエリイメージ上でクラスレギュレーション提案(CRP)を生成し、クラス認識プロンプトを自動的に生成する。
SACは自動プロンプトのみを利用し、COCO-20iベンチマークの最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-21T01:04:53Z) - Task Consistent Prototype Learning for Incremental Few-shot Semantic Segmentation [20.49085411104439]
Incrmental Few-Shot Semantic (iFSS)は、新しいクラスにおけるセグメンテーション能力を継続的に拡張するモデルを必要とするタスクに取り組む。
本研究では,メタラーニングに基づくプロトタイプ手法を導入し,モデルに事前知識を保ちながら,迅速な適応方法の学習を促す。
PASCALとCOCOベンチマークに基づいて構築されたiFSSデータセットの実験は、提案手法の高度な性能を示している。
論文 参考訳(メタデータ) (2024-10-16T23:42:27Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation [0.0]
クロスドメイン小ショットセグメンテーション (CD-FSS) が登場した。
テスト時間タスク適応がCD-FSSの成功の鍵であることを示す。
テスト時にラベル付きサンプル以外の画像は使用しないが,CD-FSSでは新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2024-02-27T15:43:53Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Disentangled Feature Representation for Few-shot Image Classification [64.40410801469106]
そこで本研究では,DFRと呼ばれる新しいDistangled Feature Representationフレームワークを提案する。
DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。
一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-09-26T09:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。