論文の概要: Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation
- arxiv url: http://arxiv.org/abs/2409.10389v1
- Date: Mon, 16 Sep 2024 15:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:00:57.284437
- Title: Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation
- Title(参考訳): Prompt-and-Transfer:Few-shotセグメンテーションのための動的クラス認識機能強化
- Authors: Hanbo Bi, Yingchao Feng, Wenhui Diao, Peijin Wang, Yongqiang Mao, Kun Fu, Hongqi Wang, Xian Sun,
- Abstract要約: 本稿では、人間の視覚知覚パターンを模倣し、プロンプト・アンド・トランスファー(PAT)と呼ばれる、新しい強力なプロンプト駆動方式を提案する。
PATは、現在のタスクで関心のあるオブジェクト(ターゲットクラス)にフォーカスするためにエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築します。
驚いたことに、PATは標準のFSS、クロスドメインのFSS、Wak-label、Zero-shot-labelを含む4つのタスクで競合するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 15.159690685421586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For more efficient generalization to unseen domains (classes), most Few-shot Segmentation (FSS) would directly exploit pre-trained encoders and only fine-tune the decoder, especially in the current era of large models. However, such fixed feature encoders tend to be class-agnostic, inevitably activating objects that are irrelevant to the target class. In contrast, humans can effortlessly focus on specific objects in the line of sight. This paper mimics the visual perception pattern of human beings and proposes a novel and powerful prompt-driven scheme, called ``Prompt and Transfer" (PAT), which constructs a dynamic class-aware prompting paradigm to tune the encoder for focusing on the interested object (target class) in the current task. Three key points are elaborated to enhance the prompting: 1) Cross-modal linguistic information is introduced to initialize prompts for each task. 2) Semantic Prompt Transfer (SPT) that precisely transfers the class-specific semantics within the images to prompts. 3) Part Mask Generator (PMG) that works in conjunction with SPT to adaptively generate different but complementary part prompts for different individuals. Surprisingly, PAT achieves competitive performance on 4 different tasks including standard FSS, Cross-domain FSS (e.g., CV, medical, and remote sensing domains), Weak-label FSS, and Zero-shot Segmentation, setting new state-of-the-arts on 11 benchmarks.
- Abstract(参考訳): 未確認領域(クラス)をより効率的に一般化するために、ほとんどのFew-shot Segmentation (FSS)は、訓練済みのエンコーダを直接利用し、デコーダのみを微調整する。
しかし、そのような固定機能エンコーダはクラスに依存しない傾向があり、必然的にターゲットクラスとは無関係なオブジェクトを活性化する。
対照的に、人間は視線上の特定の物体に力ずくで焦点を合わせることができる。
本稿では,人間の視覚的知覚パターンを模倣し,興味ある対象(ターゲットクラス)に焦点をあてるエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築した,プロンプト・アンド・トランスファー(PAT)と呼ばれる,新規で強力なプロンプト駆動型スキームを提案する。
プロンプトを強化するために、3つのキーポイントを詳述する。
1)タスク毎にプロンプトを初期化するために、モーダル言語情報を導入する。
2) 画像内のクラス固有の意味をプロンプトに正確に転送するセマンティック・プロンプト・トランスファー(SPT)。
3)SPTと連携して異なるが相補的な部分プロンプトを生成するPMG(Part Mask Generator)。
驚いたことに、PATは標準のFSS、クロスドメインのFSS(例えば、CV、医療、リモートセンシングのドメイン)、Weak-labelのFSS、Zero-shot Segmentationを含む4つの異なるタスクで競争力を発揮する。
関連論文リスト
- Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Embedding Generalized Semantic Knowledge into Few-Shot Remote Sensing Segmentation [26.542268630980814]
リモートセンシング(RS)画像のためのFew-shot segmentation (FSS)は、限られた注釈付きサンプルからのサポート情報を活用して、新しいクラスのクエリセグメンテーションを実現する。
従来の取り組みは、制約された支援サンプルの集合からセグメント化を導く視覚的手がかりをマイニングすることに集中している。
本稿では,一般的な意味知識を効果的に活用する全体論的意味埋め込み(HSE)手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T14:26:04Z) - Soft Prompt Generation for Domain Generalization [13.957351735394683]
大規模な事前訓練された視覚言語モデル(VLM)は、手動で設計したプロンプトで下流のタスクに印象的なゼロショット能力を示している。
下流タスクにVLMをさらに適応させるために、手動で設計したプロンプトを置き換えるソフトプロンプトが提案されている。
論文 参考訳(メタデータ) (2024-04-30T06:33:07Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。