論文の概要: Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding
- arxiv url: http://arxiv.org/abs/2111.15181v1
- Date: Tue, 30 Nov 2021 07:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 02:25:11.042817
- Title: Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding
- Title(参考訳): 空間的およびマルチスケールの視覚クラス埋め込みによるゼロショットセマンティックセマンティックセグメンテーション
- Authors: Sungguk Cha and Yooseung Wang
- Abstract要約: 言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully supervised semantic segmentation technologies bring a paradigm shift in
scene understanding. However, the burden of expensive labeling cost remains as
a challenge. To solve the cost problem, recent studies proposed language model
based zero-shot semantic segmentation (L-ZSSS) approaches. In this paper, we
address L-ZSSS has a limitation in generalization which is a virtue of
zero-shot learning. Tackling the limitation, we propose a language-model-free
zero-shot semantic segmentation framework, Spatial and Multi-scale aware Visual
Class Embedding Network (SM-VCENet). Furthermore, leveraging vision-oriented
class embedding SM-VCENet enriches visual information of the class embedding by
multi-scale attention and spatial attention. We also propose a novel benchmark
(PASCAL2COCO) for zero-shot semantic segmentation, which provides
generalization evaluation by domain adaptation and contains visually
challenging samples. In experiments, our SM-VCENet outperforms zero-shot
semantic segmentation state-of-the-art by a relative margin in PASCAL-5i
benchmark and shows generalization-robustness in PASCAL2COCO benchmark.
- Abstract(参考訳): 完全に教師付きセマンティックセグメンテーション技術は、シーン理解のパラダイムシフトをもたらす。
しかし、高価なラベリングコストの負担は依然として課題である。
このコスト問題を解決するために、最近の研究では言語モデルに基づくゼロショットセマンティックセマンティックセグメンテーション(L-ZSSS)アプローチを提案する。
本稿では,L-ZSSSはゼロショット学習の特質である一般化の限界を克服する。
この制限に対処するため,言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワーク,空間的およびマルチスケール認識型ビジュアルクラス埋め込みネットワーク(SM-VCENet)を提案する。
さらに、SM-VCENetの視覚指向型クラス埋め込みを活用することで、マルチスケールの注意と空間的注意によるクラス埋め込みの視覚情報を強化する。
また,ゼロショットセマンティックセグメンテーションのための新しいベンチマーク(PASCAL2COCO)を提案する。
我々のSM-VCENetはPASCAL-5iベンチマークの相対差でゼロショットセマンティックセマンティックセグメンテーションの状態を上回り、PASCAL2COCOベンチマークの一般化ロバスト性を示す。
関連論文リスト
- Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Semantic-aware SAM for Point-Prompted Instance Segmentation [29.286913777078116]
本稿では,Segment Anything (SAM) を用いた費用対効果の高いカテゴリー別セグメンタを提案する。
この課題に対処するために、複数のインスタンス学習(MIL)と整合性を備えたSAMとポイントプロンプトを備えたセマンティック・アウェア・インスタンスネットワーク(SAPNet)を開発した。
SAPNetはSAMによって生成される最も代表的なマスクの提案を戦略的に選択し、セグメンテーションを監督する。
論文 参考訳(メタデータ) (2023-12-26T05:56:44Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。