論文の概要: Beyond Visual Cues: Leveraging General Semantics as Support for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2511.16435v1
- Date: Thu, 20 Nov 2025 15:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.685978
- Title: Beyond Visual Cues: Leveraging General Semantics as Support for Few-Shot Segmentation
- Title(参考訳): ビジュアルクイズを超えて:Few-Shotセグメンテーションのサポートとしてジェネリックセマンティクスを活用する
- Authors: Jin Wang, Bingfeng Zhang, Jian Pang, Mengyu Liu, Honglong Chen, Weifeng Liu,
- Abstract要約: Few-shot segmentationはメタラーニングパラダイムによる限られたサポートサンプルのガイダンスの下で、新しいクラスをセグメンテーションすることを目的としている。
既存の手法は主にメタガイダンスとしてサポートイメージからの参照をマイニングする。
支援画像からの参照は必須ではないかもしれないし、支援の役割の鍵は、訓練されたクラスと訓練されていないクラスの両方に対して、バイアスのないメタガイダンスを提供することである。
- 参考スコア(独自算出の注目度): 27.356045985925324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot segmentation (FSS) aims to segment novel classes under the guidance of limited support samples by a meta-learning paradigm. Existing methods mainly mine references from support images as meta guidance. However, due to intra-class variations among visual representations, the meta information extracted from support images cannot produce accurate guidance to segment untrained classes. In this paper, we argue that the references from support images may not be essential, the key to the support role is to provide unbiased meta guidance for both trained and untrained classes. We then introduce a Language-Driven Attribute Generalization (LDAG) architecture to utilize inherent target property language descriptions to build robust support strategy. Specifically, to obtain an unbiased support representation, we design a Multi-attribute Enhancement (MaE) module, which produces multiple detailed attribute descriptions of the target class through Large Language Models (LLMs), and then builds refined visual-text prior guidance utilizing multi-modal matching. Meanwhile, due to text-vision modal shift, attribute text struggles to promote visual feature representation, we design a Multi-modal Attribute Alignment (MaA) to achieve cross-modal interaction between attribute texts and visual feature. Experiments show that our proposed method outperforms existing approaches by a clear margin and achieves the new state-of-the art performance. The code will be released.
- Abstract(参考訳): Few-shot segmentation (FSS) は、メタラーニングパラダイムによる限られたサポートサンプルのガイダンスの下で、新しいクラスをセグメンテーションすることを目的としている。
既存の手法は主にメタガイダンスとしてサポートイメージからの参照をマイニングする。
しかし, 視覚表現のクラス内変化により, 支援画像から抽出したメタ情報は, 訓練されていないクラスを識別するための正確なガイダンスが得られない。
本稿では,支援画像からの参照は必須ではなく,その役割の鍵は,訓練されたクラスと訓練されていないクラスの両方に対して,バイアスのないメタガイダンスを提供することである,と論じる。
次に、言語駆動属性一般化(LDAG)アーキテクチャを導入し、固有のプロパティ言語記述を利用して堅牢なサポート戦略を構築する。
具体的には,マルチ属性拡張(MaE)モジュールを設計し,Large Language Models (LLMs) を通じて対象クラスの詳細な属性記述を複数生成し,マルチモーダルマッチングを利用したビジュアルテキスト事前ガイダンスを構築する。
一方,テキストビジョンのモーダルシフトや属性テキストが視覚的特徴表現の促進に苦慮しているため,属性テキストと視覚的特徴との相互相互作用を実現するために,マルチモーダル属性アライメント(MaA)を設計する。
実験により,提案手法は既存の手法よりも明らかなマージンで性能を向上し,新しい最先端技術を実現することが示された。
コードはリリースされます。
関連論文リスト
- Multi-Text Guided Few-Shot Semantic Segmentation [17.27158303776253]
セグメント化性能を向上させるためにMTGNet(Multi-Text Guided Few-Shot Semantic Network)を提案する。
MTGNetは様々なテキストプロンプトを融合させ、テキストの事前を洗練させ、視覚的事前の相互最適化を導く。
PASCAL-5iでは76.8% mIoU、COCO-20iでは57.4%を達成し、高いクラス内変動を示す折り畳みは顕著に改善されている。
論文 参考訳(メタデータ) (2025-11-19T15:09:19Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Masked Cross-image Encoding for Few-shot Segmentation [16.445813548503708]
Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T05:36:39Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。