論文の概要: PrAda: Few-Shot Visual Adaptation for Text-Prompted Segmentation
- arxiv url: http://arxiv.org/abs/2605.19623v1
- Date: Tue, 19 May 2026 10:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.268333
- Title: PrAda: Few-Shot Visual Adaptation for Text-Prompted Segmentation
- Title(参考訳): PrAda: テキストプロンプトセグメンテーションのためのFew-Shotビジュアル適応
- Authors: Gabriele Rosi, Fabio Cermelli, Carlo Masone, Barbara Caputo,
- Abstract要約: Few-Shot Visual Adaptation for text-prompted segmentationを提案する。
PrAdaは、凍結したテキストプロンプトセグメンテーションモデルに適応する、新しいパラメータ効率の手法である。
提案手法は,微細なピクセル特徴と高レベルのトランスフォーマー表現を組み合わせることで,クラス固有のプロトタイプを学習する。
- 参考スコア(独自算出の注目度): 40.76926801774261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting images is critical for visual understanding but demands extensive pixel-level annotations. Foundational models have enabled new paradigms for predicting new classes guided by textual prompts, without annotations from the target domain. Yet, on specialized target domains, far from the original pre-training, their performance degrades. We study the errors of existing methods under such domain-shift, finding that misclassification rather than mask generation is the main culprit. To address this, we introduce the novel problem of Few-Shot Visual Adaptation for text-prompted Segmentation. This kind of adaptation has been largely studied for image classification, but it remains unexplored for segmentation. We tackle this task with Prototype Adaptation (PrAda), a novel, parameter-efficient method that adapts a frozen text-prompted segmentation model. Our approach learns class-specific prototypes by combining fine-grained pixel features and high-level transformer representations, which are then fused with the original text-based predictions through a learned importance factor. This preserves the model's zero-shot potential while enabling strong adaptation to new domains. Experiments across semantic, instance, and panoptic segmentation on five benchmarks demonstrate that PrAda yields significant improvements over state-of-the-art and proposed baselines.
- Abstract(参考訳): 画像のセグメンテーションは視覚的理解には不可欠だが、広いピクセルレベルのアノテーションを必要とする。
基本モデルは、ターゲットドメインからのアノテーションなしで、テキストプロンプトによってガイドされる新しいクラスを予測するための新しいパラダイムを可能にした。
しかし、本来の事前トレーニングから遠く離れた特定のターゲットドメインでは、パフォーマンスが低下する。
このような領域シフトの下で既存の手法の誤りを調べた結果,マスク生成よりも誤分類が主な原因であることが判明した。
そこで本研究では,Few-Shot Visual Adaptation for text-prompted Segmentationを提案する。
この種の適応は主に画像分類のために研究されてきたが、セグメンテーションには未検討である。
本稿では,凍結したテキストプロンプテッドセグメンテーションモデルに適応する新しいパラメータ効率の手法であるPrototype Adaptation (PrAda) を用いて,この課題に取り組む。
提案手法は,微細な画素特徴と高レベルのトランスフォーマー表現を組み合わせることで,クラス固有のプロトタイプを学習する。
これにより、モデルのゼロショットポテンシャルを保ちながら、新しい領域への強力な適応を可能にする。
セマンティック、例えば5つのベンチマークでのパノプティックセグメンテーションの実験では、PrAdaは最先端のベースラインと提案されたベースラインよりも大幅に改善されている。
関連論文リスト
- SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
本稿ではセマンティック・空間適応(SSA-Seg)を提案し,セマンティックセグメンテーションの課題に対処する。
具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。
その結果,提案したSSA-Segは,計算コストを最小限に抑えながら,ベースラインモデルのセグメンテーション性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-10T15:14:23Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Domain-invariant Prototypes for Semantic Segmentation [30.932130453313537]
ドメイン適応型セマンティックセグメンテーションのためのドメイン不変のプロトタイプを学習する。
本手法は,1段階の訓練のみを伴い,大規模な未注釈対象画像に対してトレーニングを行う必要はない。
論文 参考訳(メタデータ) (2022-08-12T02:21:05Z) - Modeling the Background for Incremental and Weakly-Supervised Semantic
Segmentation [39.025848280224785]
セマンティックセグメンテーションのための新しい漸進的なクラス学習手法を提案する。
各トレーニングステップは、すべての可能なクラスのサブセットにのみアノテーションを提供するので、バックグラウンドクラスのピクセルはセマンティックシフトを示す。
本研究では,Pascal-VOC,ADE20K,Cityscapesのデータセットを広範囲に評価し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-01-31T16:33:21Z) - A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。
このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。
一 バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。
二 旧クラスの忘れ物 正規化戦略で解決できるもの。
論文 参考訳(メタデータ) (2020-11-30T20:45:56Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。