論文の概要: FreeSeg: Free Mask from Interpretable Contrastive Language-Image
Pretraining for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2209.13558v1
- Date: Tue, 27 Sep 2022 17:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:51:37.843623
- Title: FreeSeg: Free Mask from Interpretable Contrastive Language-Image
Pretraining for Semantic Segmentation
- Title(参考訳): FreeSeg: 解釈可能なコントラスト言語からの自由マスク-セマンティックセグメンテーションのための画像プレトレーニング
- Authors: Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li
- Abstract要約: 本稿では,オープンワールドセグメンテーションのためのピクセルレベルのアノテーションを使わずに,自然言語を監督として利用する。
FreeSegは注釈付きマスクを一切必要とせず、クラスに依存しない非教師なしセグメンテーション以上のカテゴリを広く予測する。
我々の中心となる改善点は、高密度ICLIPのためのスムーズなミンプーリングであり、セグメンテーションのための部分ラベルとピクセル戦略である。
- 参考スコア(独自算出の注目度): 11.834179991450302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised semantic segmentation learns from dense masks, which
requires heavy annotation cost for closed set. In this paper, we use natural
language as supervision without any pixel-level annotation for open world
segmentation. We call the proposed framework as FreeSeg, where the mask is
freely available from raw feature map of pretraining model. Compared with
zero-shot or openset segmentation, FreeSeg doesn't require any annotated masks,
and it widely predicts categories beyond class-agnostic unsupervised
segmentation. Specifically, FreeSeg obtains free mask from Image-Text
Similarity Map (ITSM) of Interpretable Contrastive Language-Image Pretraining
(ICLIP). And our core improvements are the smoothed min pooling for dense
ICLIP, with the partial label and pixel strategies for segmentation.
Furthermore, FreeSeg is very straight forward without complex design like
grouping, clustering or retrieval. Besides the simplicity, the performances of
FreeSeg surpass previous state-of-the-art at large margins, e.g. 13.4% higher
at mIoU on VOC dataset in the same settings.
- Abstract(参考訳): 完全に教師付きセマンティックセグメンテーションは密集マスクから学習する。
本稿では,オープンワールドセグメンテーションのためのピクセルレベルのアノテーションを使わずに,自然言語を監督する。
提案したフレームワークをFreeSegと呼び、事前学習モデルの生の機能マップからマスクを自由に利用できる。
ゼロショットセグメンテーションやオープンセットセグメンテーションと比較すると、freesegは注釈付きマスクは必要とせず、クラスに依存しない非教師なしセグメンテーション以外のカテゴリを広く予測している。
具体的には、FreeSeg は Interpretable Contrastive Language- Image Pretraining (ICLIP) の Image-Text similarity Map (ITSM) からフリーマスクを取得する。
そして、我々は高密度ICLIPのためのスムーズなミンプーリングとセグメンテーションのための部分ラベルとピクセル戦略を改良した。
さらにFreeSegは、グループ化やクラスタリング、検索といった複雑な設計をせずに、非常にまっすぐに進んでいる。
単純さに加えて、freesegのパフォーマンスは以前の最先端技術を大きく上回り、例えば同じ設定で、miou on vocデータセットで13.4%高い。
関連論文リスト
- Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [90.90962457393374]
我々は、独立した画像マスクと画像テキストペアを用いて、マスクとテキストの厳密な対応を解放する。
テキスト記述におけるマス予測と実体の信頼度を利用した弱教師付きオープン語彙セグメンテーションフレームワーク(Uni-OVSeg)を提案する。
テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Zero-shot Referring Image Segmentation with Global-Local Context
Features [8.77461711080319]
参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的としている。
本稿では,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション法を提案する。
実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-03-31T06:00:50Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。