Fugu-MT 論文翻訳(概要): TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation

論文の概要: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation

arxiv url: http://arxiv.org/abs/2409.05393v1
Date: Mon, 9 Sep 2024 07:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 15:30:45.223972
Title: TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation
Title（参考訳）: TAVP: クロスドメインなFew-shotセグメンテーションのためのタスク適応型ビジュアルプロンプト
Authors: Jiaqi Yang, Ye Huang, Xiangjian He, Linlin Shen, Guoping Qiu,
Abstract要約: 本研究は,Segment Anything Model(SAM)に基づくタスク適応型プロンプトフレームワークを提案する。独自の生成アプローチを使用して、包括的なモデル構造と特殊なプロトタイプ計算を併用する。タスク固有かつ重み付けされたガイダンスの後、SAMの豊富な特徴情報は、クロスドミナン・ショット・セグメンテーションにおいてよりよく学習できる。
参考スコア（独自算出の注目度）: 44.134340976905655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Under the backdrop of large-scale pre-training, large visual models (LVM) have demonstrated significant potential in image understanding. The recent emergence of the Segment Anything Model (SAM) has brought a qualitative shift in the field of image segmentation, supporting flexible interactive cues and strong learning capabilities. However, its performance often falls short in cross-domain and few-shot applications. Transferring prior knowledge from foundation models to new applications while preserving learning capabilities is worth exploring. This work proposes a task-adaptive prompt framework based on SAM, a new paradigm for Cross-dominan few-shot segmentation (CD-FSS). First, a Multi-level Feature Fusion (MFF) was used for integrated feature extraction. Besides, an additional Class Domain Task-Adaptive Auto-Prompt (CDTAP) module was combined with the segmentation branch for class-domain agnostic feature extraction and high-quality learnable prompt production. This significant advancement uses a unique generative approach to prompts alongside a comprehensive model structure and specialized prototype computation. While ensuring that the prior knowledge of SAM is not discarded, the new branch disentangles category and domain information through prototypes, guiding it in adapting the CD-FSS. We have achieved the best results on three benchmarks compared to the recent state-of-the-art (SOTA) methods. Comprehensive experiments showed that after task-specific and weighted guidance, the abundant feature information of SAM can be better learned for CD-FSS.
Abstract（参考訳）: 大規模事前学習の背景には、画像理解において大きな視覚モデル(LVM)が大きな可能性を示している。最近のSAM(Segment Anything Model)の出現は、画像セグメンテーションの分野に質的なシフトをもたらし、フレキシブルなインタラクティブなキューと強力な学習機能をサポートした。しかし、そのパフォーマンスはクロスドメインや少数ショットのアプリケーションでは不十分であることが多い。学習能力を維持しながら、基礎モデルから新しいアプリケーションに事前知識を移すことは、調査する価値がある。本研究は,Cross-dominan few-shot segmentation (CD-FSS)の新しいパラダイムであるSAMに基づくタスク適応型プロンプトフレームワークを提案する。まず,MFF(Multi-level Feature Fusion)を用いて特徴抽出を行った。さらに、追加のClass Domain Task-Adaptive Auto-Prompt (CDTAP)モジュールと、クラスドメインに依存しない特徴抽出と高品質の学習可能なプロンプト生成のためのセグメンテーションブランチが組み合わされた。この大きな進歩は、包括的なモデル構造と特殊なプロトタイプ計算と並行して、ユニークな生成的アプローチを用いている。 SAMの事前の知識が破棄されないことを保証する一方で、新しいブランチはプロトタイプを通じてカテゴリとドメイン情報を分離し、CD-FSSの適応を導く。我々は最近のSOTA(State-of-the-art)手法と比較して,3つのベンチマークで最高の結果を得た。包括的実験により,タスク固有および重み付き指導の後で,SAMの特徴情報をCD-FSSでよりよく学習できることが確認された。

関連論文リスト

Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文参考訳（メタデータ） (2025-04-30T08:16:33Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
Segment Any Class (SAC): Multi-Class Few-Shot Semantic Segmentation via Class Region Proposals [0.0]
本稿では,Segment Any Class (SAC) を提案する。Segment Any Class (SAC) は多クラスセグメンテーションのためにSAMをタスク適応する訓練不要のアプローチである。 SACはクエリイメージ上でクラスレギュレーション提案(CRP)を生成し、クラス認識プロンプトを自動的に生成する。 SACは自動プロンプトのみを利用し、COCO-20iベンチマークの最先端手法よりも優れた結果が得られる。
論文参考訳（メタデータ） (2024-11-21T01:04:53Z)
Task Consistent Prototype Learning for Incremental Few-shot Semantic Segmentation [20.49085411104439]
Incrmental Few-Shot Semantic (iFSS)は、新しいクラスにおけるセグメンテーション能力を継続的に拡張するモデルを必要とするタスクに取り組む。本研究では,メタラーニングに基づくプロトタイプ手法を導入し,モデルに事前知識を保ちながら,迅速な適応方法の学習を促す。 PASCALとCOCOベンチマークに基づいて構築されたiFSSデータセットの実験は、提案手法の高度な性能を示している。
論文参考訳（メタデータ） (2024-10-16T23:42:27Z)
Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。 DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-19T07:28:33Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
EMPL: A novel Efficient Meta Prompt Learning Framework for Few-shot Unsupervised Domain Adaptation [22.586094394391747]
本稿では,FS-UDAのためのメタプロンプト学習フレームワークを提案する。このフレームワークでは、事前訓練されたCLIPモデルを機能学習ベースモデルとして使用しています。 5-way 1-shotでは少なくとも15.4%,5-way 5-shotでは8.7%の大幅な改善が得られた。
論文参考訳（メタデータ） (2024-07-04T17:13:06Z)
APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation [33.90244697752314]
クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
論文参考訳（メタデータ） (2024-06-12T16:20:58Z)
AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文参考訳（メタデータ） (2024-06-01T16:21:39Z)
Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation [0.0]
クロスドメイン小ショットセグメンテーション (CD-FSS) が登場した。テスト時間タスク適応がCD-FSSの成功の鍵であることを示す。テスト時にラベル付きサンプル以外の画像は使用しないが,CD-FSSでは新たな最先端性能を実現している。
論文参考訳（メタデータ） (2024-02-27T15:43:53Z)
Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文参考訳（メタデータ） (2024-01-18T10:29:10Z)
Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement [6.197356908000006]
Few-Shot (FSS) は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。我々のアプローチは、エンコーダの層間にPAMを挿入するだけで、異なるバックボーンを持つ多様なFSSメソッドと互換性がある。
論文参考訳（メタデータ） (2023-12-25T14:03:38Z)
Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。 SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文参考訳（メタデータ） (2023-11-22T07:07:55Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文参考訳（メタデータ） (2023-06-28T14:51:34Z)
Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。 NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文参考訳（メタデータ） (2021-12-03T13:31:59Z)
Disentangled Feature Representation for Few-shot Image Classification [64.40410801469106]
そこで本研究では,DFRと呼ばれる新しいDistangled Feature Representationフレームワークを提案する。 DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2021-09-26T09:53:11Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文参考訳（メタデータ） (2021-04-19T11:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。