論文の概要: Textual and Visual Guided Task Adaptation for Source-Free Cross-Domain Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2508.05213v1
- Date: Thu, 07 Aug 2025 09:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.797855
- Title: Textual and Visual Guided Task Adaptation for Source-Free Cross-Domain Few-Shot Segmentation
- Title(参考訳): ソースレスクロスドメインFew-Shotセグメンテーションのためのテキストとビジュアルガイドによるタスク適応
- Authors: Jianming Liu, Wenlong Qiu, Haitao Wei,
- Abstract要約: Few-Shot(FSS)は、ラベル付きサンプルが少ない新しいオブジェクトのセグメンテーションを効率的にすることを目的としている。
このような性能劣化を軽減するため,クロスドメインFew-Shot(CD-FSS)を提案する。
- 参考スコア(独自算出の注目度): 0.979247551980983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Segmentation(FSS) aims to efficient segmentation of new objects with few labeled samples. However, its performance significantly degrades when domain discrepancies exist between training and deployment. Cross-Domain Few-Shot Segmentation(CD-FSS) is proposed to mitigate such performance degradation. Current CD-FSS methods primarily sought to develop segmentation models on a source domain capable of cross-domain generalization. However, driven by escalating concerns over data privacy and the imperative to minimize data transfer and training expenses, the development of source-free CD-FSS approaches has become essential. In this work, we propose a source-free CD-FSS method that leverages both textual and visual information to facilitate target domain task adaptation without requiring source domain data. Specifically, we first append Task-Specific Attention Adapters (TSAA) to the feature pyramid of a pretrained backbone, which adapt multi-level features extracted from the shared pre-trained backbone to the target task. Then, the parameters of the TSAA are trained through a Visual-Visual Embedding Alignment (VVEA) module and a Text-Visual Embedding Alignment (TVEA) module. The VVEA module utilizes global-local visual features to align image features across different views, while the TVEA module leverages textual priors from pre-aligned multi-modal features (e.g., from CLIP) to guide cross-modal adaptation. By combining the outputs of these modules through dense comparison operations and subsequent fusion via skip connections, our method produces refined prediction masks. Under both 1-shot and 5-shot settings, the proposed approach achieves average segmentation accuracy improvements of 2.18\% and 4.11\%, respectively, across four cross-domain datasets, significantly outperforming state-of-the-art CD-FSS methods. Code are available at https://github.com/ljm198134/TVGTANet.
- Abstract(参考訳): Few-Shot Segmentation (FSS)は、ラベル付きサンプルが少ない新しいオブジェクトのセグメンテーションを効率的にすることを目的としている。
しかし、トレーニングとデプロイメントの間にドメインの相違がある場合、パフォーマンスは大幅に低下する。
このような性能劣化を軽減するために,クロスドメインFew-Shot Segmentation(CD-FSS)を提案する。
現在のCD-FSS法は主に、クロスドメインの一般化が可能なソースドメイン上のセグメンテーションモデルを開発することを目的としている。
しかし、データプライバシとデータ転送とトレーニング費用を最小限に抑えるため、データプライバシに関する懸念がエスカレートされることで、ソースフリーのCD-FSSアプローチの開発が不可欠になっている。
本研究では、テキスト情報と視覚情報の両方を利用して、ソースドメインデータを必要とせずに、ターゲット領域のタスク適応を容易にする、ソースフリーなCD-FSS手法を提案する。
具体的には、まず、事前訓練されたバックボーンの特徴ピラミッドにタスク特化注意適応器(TSAA)を付加し、共有された事前訓練されたバックボーンから抽出されたマルチレベル特徴を目標タスクに適応させる。
次に、TSAAのパラメータは、Visual-Visual Embedding Alignment (VVEA)モジュールとText-Visual Embedding Alignment (TVEA)モジュールを介してトレーニングされる。
VVEAモジュールは、グローバルな視覚的特徴を活用して、さまざまなビューにまたがるイメージ機能を整列させる一方で、TVEAモジュールは、事前に整列されたマルチモーダル機能(例えば、CLIPからの)からテキストの事前情報を活用して、クロスモーダル適応をガイドする。
これらのモジュールの出力を密接な比較演算とスキップ接続による融合により組み合わせることで,洗練された予測マスクを生成する。
1ショット設定と5ショット設定の両方で、提案手法は4つのクロスドメインデータセットでそれぞれ2.18\%と4.11\%の平均セグメンテーション精度の改善を実現し、最先端のCD-FSS法よりも大幅に向上した。
コードはhttps://github.com/ljm 198134/TVGTANetで入手できる。
関連論文リスト
- Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation [14.660710170156202]
十分なサンプルを用いて、ソースドメインデータセット上でモデルを事前トレーニングするために、クロスドメイン小ショットセグメンテーション(CD-FSS)を提案する。
対象ドメイン上では、ターゲット固有の知識を学習するために、モデルを凍結し、DFNを微調整する。
提案手法は,CD-FSSの最先端手法を2.69%,MIoUが4.68%,1ショット・5ショット・シナリオでは2.68%に大きく上回っている。
論文 参考訳(メタデータ) (2025-06-09T02:51:06Z) - Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [40.49924427388922]
本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T07:43:58Z) - APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation [33.90244697752314]
クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。
提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
論文 参考訳(メタデータ) (2024-06-12T16:20:58Z) - DARNet: Bridging Domain Gaps in Cross-Domain Few-Shot Segmentation with
Dynamic Adaptation [20.979759016826378]
Few-shot segmentation (FSS) は、ベースクラスからの少数のサポートイメージを使用することで、新しいクラスをクエリイメージにセグメントすることを目的としている。
クロスドメイン FSS では、リソース制約のあるドメインにラベルに富んだドメインの機能を活用することで、ドメインの相違による課題が生じる。
本研究は,CD-FSSの一般化と特異性を両立するDARNet法を提案する。
論文 参考訳(メタデータ) (2023-12-08T03:03:22Z) - Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。
本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。
提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文 参考訳(メタデータ) (2023-08-01T15:37:19Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Seeking Similarities over Differences: Similarity-based Domain Alignment
for Adaptive Object Detection [86.98573522894961]
本研究では,Unsupervised Domain Adaptation (UDA) アルゴリズムが検出に使用するコンポーネントを一般化するフレームワークを提案する。
具体的には、最適な設計選択を生かした新しいUDAアルゴリズムViSGAを提案し、インスタンスレベルの特徴を集約する単純だが効果的な方法を提案する。
類似性に基づくグループ化と対角トレーニングの両方により、モデルでは、ゆるやかに整列されたドメインにまたがるすべてのインスタンスにマッチせざるを得ず、機能グループを粗い整列することに集中することが可能であることが示されています。
論文 参考訳(メタデータ) (2021-10-04T13:09:56Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。