論文の概要: Delving into Shape-aware Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.08491v1
- Date: Mon, 17 Apr 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:55:06.235960
- Title: Delving into Shape-aware Zero-shot Semantic Segmentation
- Title(参考訳): 形状認識ゼロショットセマンティックセマンティックセグメンテーション
- Authors: Xinyu Liu, Beiwen Tian, Zhen Wang, Rui Wang, Kehua Sheng, Bo Zhang,
Hao Zhao, Guyue Zhou
- Abstract要約: 我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
- 参考スコア(独自算出の注目度): 18.51025849474123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the impressive progress of large-scale vision-language pretraining,
recent recognition models can classify arbitrary objects in a zero-shot and
open-set manner, with a surprisingly high accuracy. However, translating this
success to semantic segmentation is not trivial, because this dense prediction
task requires not only accurate semantic understanding but also fine shape
delineation and existing vision-language models are trained with image-level
language descriptions. To bridge this gap, we pursue \textbf{shape-aware}
zero-shot semantic segmentation in this study. Inspired by classical spectral
methods in the image segmentation literature, we propose to leverage the eigen
vectors of Laplacian matrices constructed with self-supervised pixel-wise
features to promote shape-awareness. Despite that this simple and effective
technique does not make use of the masks of seen classes at all, we demonstrate
that it out-performs a state-of-the-art shape-aware formulation that aligns
ground truth and predicted edges during training. We also delve into the
performance gains achieved on different datasets using different backbones and
draw several interesting and conclusive observations: the benefits of promoting
shape-awareness highly relates to mask compactness and language embedding
locality. Finally, our method sets new state-of-the-art performance for
zero-shot semantic segmentation on both Pascal and COCO, with significant
margins. Code and models will be accessed at https://github.com/Liuxinyv/SAZS.
- Abstract(参考訳): 大規模視覚言語事前学習の印象的な進歩のおかげで、最近の認識モデルでは、任意のオブジェクトをゼロショットとオープンセットで、驚くほど高い精度で分類することができる。
しかし、この密集した予測タスクには正確な意味理解だけでなく、ファインシェイプ・デライン化が必要であり、既存のビジョン言語モデルは画像レベルの言語記述で訓練されているため、この成功をセマンティックセグメンテーションに翻訳するのは簡単ではない。
このギャップを埋めるために,本研究では, ゼロショットセマンティックセマンティックセグメンテーションを追求する。
画像分割文学における古典的なスペクトル法に触発されて,自己教師付き画素単位の特徴を持つラプラシアン行列の固有ベクトルを活用し,形状認識を促進する。
このシンプルで効果的な手法は、目に見えるクラスのマスクを全く利用しないが、トレーニング中に地面の真実と予測エッジを整列する最先端の形状認識定式化よりも優れていることを示す。
さまざまなバックボーンを使用して、さまざまなデータセットで達成されたパフォーマンス向上についても検討し、いくつかの興味深い、決定的な見解を示しました。
最後に,本手法はパスカルとココの両方においてゼロショットセマンティクスセグメンテーションのための新しい最先端性能をかなりマージンで設定する。
コードとモデルはhttps://github.com/Liuxinyv/SAZSでアクセスできる。
関連論文リスト
- Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation [15.29479338808226]
自己教師付き画素表現学習と視覚言語モデルを利用して,様々なセマンティックセグメンテーションタスクを実現するCLIP-S$4を提示する。
当社のアプローチでは,4つの一般的なベンチマークに対して,一貫した,実質的なパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-05-01T19:01:01Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Class Enhancement Losses with Pseudo Labels for Zero-shot Semantic
Segmentation [40.09476732999614]
マスクの提案モデルは、ゼロショットセマンティックセグメンテーションの性能を大幅に改善した。
トレーニング中にバックグラウンドを埋め込むことは問題であり、結果として得られたモデルが過剰に学習し、正しいラベルではなく、すべての見えないクラスをバックグラウンドクラスとして割り当てる傾向がある。
本稿では,学習中の背景埋め込みの使用を回避し,テキスト埋め込みとマスク提案のセマンティックな関係を類似度スコアのランク付けにより活用する新しいクラス拡張損失を提案する。
論文 参考訳(メタデータ) (2023-01-18T06:55:02Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。