Fugu-MT 論文翻訳(概要): FreeSeg: Free Mask from Interpretable Contrastive Language-Image Pretraining for Semantic Segmentation

論文の概要: FreeSeg: Free Mask from Interpretable Contrastive Language-Image Pretraining for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2209.13558v1
Date: Tue, 27 Sep 2022 17:16:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 15:51:37.843623
Title: FreeSeg: Free Mask from Interpretable Contrastive Language-Image Pretraining for Semantic Segmentation
Title（参考訳）: FreeSeg: 解釈可能なコントラスト言語からの自由マスク-セマンティックセグメンテーションのための画像プレトレーニング
Authors: Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li
Abstract要約: 本稿では,オープンワールドセグメンテーションのためのピクセルレベルのアノテーションを使わずに,自然言語を監督として利用する。 FreeSegは注釈付きマスクを一切必要とせず、クラスに依存しない非教師なしセグメンテーション以上のカテゴリを広く予測する。我々の中心となる改善点は、高密度ICLIPのためのスムーズなミンプーリングであり、セグメンテーションのための部分ラベルとピクセル戦略である。
参考スコア（独自算出の注目度）: 11.834179991450302
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fully supervised semantic segmentation learns from dense masks, which requires heavy annotation cost for closed set. In this paper, we use natural language as supervision without any pixel-level annotation for open world segmentation. We call the proposed framework as FreeSeg, where the mask is freely available from raw feature map of pretraining model. Compared with zero-shot or openset segmentation, FreeSeg doesn't require any annotated masks, and it widely predicts categories beyond class-agnostic unsupervised segmentation. Specifically, FreeSeg obtains free mask from Image-Text Similarity Map (ITSM) of Interpretable Contrastive Language-Image Pretraining (ICLIP). And our core improvements are the smoothed min pooling for dense ICLIP, with the partial label and pixel strategies for segmentation. Furthermore, FreeSeg is very straight forward without complex design like grouping, clustering or retrieval. Besides the simplicity, the performances of FreeSeg surpass previous state-of-the-art at large margins, e.g. 13.4% higher at mIoU on VOC dataset in the same settings.
Abstract（参考訳）: 完全に教師付きセマンティックセグメンテーションは密集マスクから学習する。本稿では,オープンワールドセグメンテーションのためのピクセルレベルのアノテーションを使わずに,自然言語を監督する。提案したフレームワークをFreeSegと呼び、事前学習モデルの生の機能マップからマスクを自由に利用できる。ゼロショットセグメンテーションやオープンセットセグメンテーションと比較すると、freesegは注釈付きマスクは必要とせず、クラスに依存しない非教師なしセグメンテーション以外のカテゴリを広く予測している。具体的には、FreeSeg は Interpretable Contrastive Language- Image Pretraining (ICLIP) の Image-Text similarity Map (ITSM) からフリーマスクを取得する。そして、我々は高密度ICLIPのためのスムーズなミンプーリングとセグメンテーションのための部分ラベルとピクセル戦略を改良した。さらにFreeSegは、グループ化やクラスタリング、検索といった複雑な設計をせずに、非常にまっすぐに進んでいる。単純さに加えて、freesegのパフォーマンスは以前の最先端技術を大きく上回り、例えば同じ設定で、miou on vocデータセットで13.4%高い。

関連論文リスト

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文参考訳（メタデータ） (2024-04-25T17:58:09Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文参考訳（メタデータ） (2024-01-22T18:59:29Z)
Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。 U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文参考訳（メタデータ） (2023-12-28T18:59:04Z)
Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文参考訳（メタデータ） (2023-09-11T14:32:04Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-01T18:59:03Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文参考訳（メタデータ） (2021-11-24T18:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。