論文の概要: Unbiased Semantic Decoding with Vision Foundation Models for Few-shot Segmentation
- arxiv url: http://arxiv.org/abs/2511.15118v1
- Date: Wed, 19 Nov 2025 04:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.636672
- Title: Unbiased Semantic Decoding with Vision Foundation Models for Few-shot Segmentation
- Title(参考訳): ファウショットセグメンテーションのためのビジョン基礎モデルを用いたアンバイアス・セマンティックデコーディング
- Authors: Jin Wang, Bingfeng Zhang, Jian Pang, Weifeng Liu, Baodi Liu, Honglong Chen,
- Abstract要約: 我々は,Segment Anything Model(SAM)と統合したunbiased Semantic Decoding(USD)戦略を提案する。
USD戦略は、一貫した予測を行うために、サポートセットとクエリセットの両方からターゲット情報を同時に抽出する。
ターゲット中心のプロンプト埋め込みを生成するために、学習可能なビジュアルテキストターゲットプロンプト生成器を提案する。
- 参考スコア(独自算出の注目度): 36.731980769369834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot segmentation has garnered significant attention. Many recent approaches attempt to introduce the Segment Anything Model (SAM) to handle this task. With the strong generalization ability and rich object-specific extraction ability of the SAM model, such a solution shows great potential in few-shot segmentation. However, the decoding process of SAM highly relies on accurate and explicit prompts, making previous approaches mainly focus on extracting prompts from the support set, which is insufficient to activate the generalization ability of SAM, and this design is easy to result in a biased decoding process when adapting to the unknown classes. In this work, we propose an Unbiased Semantic Decoding (USD) strategy integrated with SAM, which extracts target information from both the support and query set simultaneously to perform consistent predictions guided by the semantics of the Contrastive Language-Image Pre-training (CLIP) model. Specifically, to enhance the unbiased semantic discrimination of SAM, we design two feature enhancement strategies that leverage the semantic alignment capability of CLIP to enrich the original SAM features, mainly including a global supplement at the image level to provide a generalize category indicate with support image and a local guidance at the pixel level to provide a useful target location with query image. Besides, to generate target-focused prompt embeddings, a learnable visual-text target prompt generator is proposed by interacting target text embeddings and clip visual features. Without requiring re-training of the vision foundation models, the features with semantic discrimination draw attention to the target region through the guidance of prompt with rich target information.
- Abstract(参考訳): ショットセグメンテーションはほとんど注目されていない。
最近の多くのアプローチでは、このタスクを扱うためにSegment Anything Model (SAM)を導入しようと試みている。
SAMモデルの強力な一般化能力とリッチなオブジェクト固有抽出能力により、そのような解は少数ショットセグメンテーションにおいて大きな可能性を示す。
しかし、SAMの復号過程は正確かつ明示的なプロンプトに大きく依存しており、従来のアプローチはSAMの一般化能力を活性化するには不十分なサポートセットからのプロンプトの抽出に重点を置いている。
本研究では、SAMと統合されたUnbiased Semantic Decoding(USD)戦略を提案する。これは、サポートセットとクエリセットの両方からターゲット情報を同時に抽出し、Contrastive Language- Image Pre-training(CLIP)モデルのセマンティクスによって導かれる一貫性のある予測を行う。
具体的には、SAMの非バイアスな意味的識別を強化するために、CLIPのセマンティックアライメント機能を利用して、画像レベルでのグローバルサプリメントを含む元のSAM特徴を豊かにするための2つの機能拡張戦略を設計し、画素レベルでのサポート画像とローカルガイダンスを示す一般化カテゴリを提供し、クエリ画像で有用なターゲット位置を提供する。
さらに,ターゲットに焦点をあてたプロンプト埋め込みを生成するために,ターゲットテキスト埋め込みとクリップ視覚特徴を相互作用させることにより,学習可能なビジュアルテキストターゲットプロンプトジェネレータを提案する。
視覚基盤モデルの再訓練を必要とせずに、意味的差別を伴う特徴は、リッチなターゲット情報を持つプロンプトのガイダンスを通じて、対象領域に注意を向ける。
関連論文リスト
- Target-Oriented Single Domain Generalization [27.182037614828968]
単一ソースドメインでトレーニングされたディープモデルは、分散シフトの下で破滅的に失敗することが多い。
本稿では,対象ドメインのテキスト記述を活用する新しい問題設定である,ターゲット指向単一ドメイン一般化を提案する。
私たちは、ターゲットセマンティクスをソース機能に注入するモジュールであるSpectral TARget Alignment(STAR)を紹介します。
論文 参考訳(メタデータ) (2025-08-30T04:21:48Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - VRP-SAM: SAM with Visual Reference Prompt [76.71829864364283]
SAM(Segment Anything Model)を利用した新しいVisual Reference Prompt(VRP)エンコーダを提案する。
VRP-SAMは、アノテーション付き参照イメージを使用して、特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行する。
VRP-SAMの一般化能力を高めるために、VRPエンコーダはメタラーニング戦略を採用する。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Few-Shot Classification & Segmentation Using Large Language Models Agent [0.7550566004119158]
本研究では,大規模言語モデル(LLM)をエージェントとして利用し,FS-CS問題にトレーニング不要で対処する手法を提案する。
提案手法はPascal-5iデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-19T00:33:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。