論文の概要: Multi-Text Guided Few-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2511.15515v1
- Date: Wed, 19 Nov 2025 15:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.860109
- Title: Multi-Text Guided Few-Shot Semantic Segmentation
- Title(参考訳): 複数テキストガイド付きFew-Shotセマンティックセマンティックセマンティックセグメンテーション
- Authors: Qiang Jiao, Bin Yan, Yi Yang, Mengrui Shi, Qiang Zhang,
- Abstract要約: セグメント化性能を向上させるためにMTGNet(Multi-Text Guided Few-Shot Semantic Network)を提案する。
MTGNetは様々なテキストプロンプトを融合させ、テキストの事前を洗練させ、視覚的事前の相互最適化を導く。
PASCAL-5iでは76.8% mIoU、COCO-20iでは57.4%を達成し、高いクラス内変動を示す折り畳みは顕著に改善されている。
- 参考スコア(独自算出の注目度): 17.27158303776253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent CLIP-based few-shot semantic segmentation methods introduce class-level textual priors to assist segmentation by typically using a single prompt (e.g., a photo of class). However, these approaches often result in incomplete activation of target regions, as a single textual description cannot fully capture the semantic diversity of complex categories. Moreover, they lack explicit cross-modal interaction and are vulnerable to noisy support features, further degrading visual prior quality. To address these issues, we propose the Multi-Text Guided Few-Shot Semantic Segmentation Network (MTGNet), a dual-branch framework that enhances segmentation performance by fusing diverse textual prompts to refine textual priors and guide the cross-modal optimization of visual priors. Specifically, we design a Multi-Textual Prior Refinement (MTPR) module that suppresses interference and aggregates complementary semantic cues to enhance foreground activation and expand semantic coverage for structurally complex objects. We introduce a Text Anchor Feature Fusion (TAFF) module, which leverages multi-text embeddings as semantic anchors to facilitate the transfer of discriminative local prototypes from support images to query images, thereby improving semantic consistency and alleviating intra-class variations. Furthermore, a Foreground Confidence-Weighted Attention (FCWA) module is presented to enhance visual prior robustness by leveraging internal self-similarity within support foreground features. It adaptively down-weights inconsistent regions and effectively suppresses interference in the query segmentation process. Extensive experiments on standard FSS benchmarks validate the effectiveness of MTGNet. In the 1-shot setting, it achieves 76.8% mIoU on PASCAL-5i and 57.4% on COCO-20i, with notable improvements in folds exhibiting high intra-class variations.
- Abstract(参考訳): 最近のCLIPベースの少数ショットセマンティックセマンティックセマンティクス手法は、通常、単一のプロンプト(例えば、クラスの写真)を使用することで、セマンティクスを支援するクラスレベルのテキストプリエントを導入している。
しかしながら、これらのアプローチは、単一のテキスト記述が複雑なカテゴリのセマンティックな多様性を完全に捉えることができないため、ターゲット領域の不完全な活性化をもたらすことが多い。
さらに、明示的なクロスモーダルな相互作用がなく、ノイズの多いサポート機能に弱いため、視覚的な事前品質が低下する。
これらの問題に対処するために,多文のプロンプトを融合してテキスト先行を洗練させ,視覚的先行を相互に最適化する二分岐フレームワークMTGNet(Multi-Text Guided Few-Shot Semantic Segmentation Network)を提案する。
具体的には、干渉を抑制し、補完的な意味的手がかりを集約し、前景の活性化を高め、構造的に複雑な対象に対する意味的カバレッジを拡大するMTPR(Multi-Textual Prior Refinement)モジュールを設計する。
テキストアンカー・フィーチャー・フュージョン (TAFF) モジュールを導入し,マルチテキストの埋め込みをセマンティックアンカーとして活用することにより,画像からクエリ画像への識別的ローカルプロトタイプの転送を容易にし,セマンティック一貫性を改善し,クラス内変動を緩和する。
さらに、前景機能の内部自己相似性を活用することにより、視覚的事前堅牢性を高めるために、前景信頼度重み付き注意(FCWA)モジュールを提示する。
不整合領域を適応的にダウンウェイトし、クエリセグメンテーションプロセスにおける干渉を効果的に抑制する。
標準FSSベンチマークの大規模な実験は、MTGNetの有効性を検証する。
1ショット設定では、PASCAL-5iで76.8% mIoU、COCO-20iで57.4%を達成する。
関連論文リスト
- TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation [8.48847068018671]
本稿では,3段階画像テキスト特徴アライメントネットワークであるTFANetを提案する。
KPS(Knowledge Plus Stage)、KFS(Knowledge Fusion Stage)、KIS(Knowledge Intensification Stage)の3段階からなる階層的なフレームワークを通じて、マルチモーダルアライメントを強化する。
KPSでは,画像領域と言語記述の異なる粒度とのリッチで効率的なアライメントを確立する,MLAM(Multiscale Linear Cross-Attention Module)を設計する。
KFSはさらに、クロスモーダル・フィーチャー・スキャン・モジュール(CFSM)による機能アライメントを強化し、長距離依存関係のキャプチャにマルチモーダル選択的スキャンを適用した。
論文 参考訳(メタデータ) (2025-09-16T13:26:58Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Embedding Generalized Semantic Knowledge into Few-Shot Remote Sensing Segmentation [26.542268630980814]
リモートセンシング(RS)画像のためのFew-shot segmentation (FSS)は、限られた注釈付きサンプルからのサポート情報を活用して、新しいクラスのクエリセグメンテーションを実現する。
従来の取り組みは、制約された支援サンプルの集合からセグメント化を導く視覚的手がかりをマイニングすることに集中している。
本稿では,一般的な意味知識を効果的に活用する全体論的意味埋め込み(HSE)手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T14:26:04Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。