論文の概要: Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals
- arxiv url: http://arxiv.org/abs/2404.16818v2
- Date: Sun, 06 Oct 2024 11:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:07.563462
- Title: Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals
- Title(参考訳): 主マスクの提案による教師なしセマンティックセマンティックセグメンテーションの促進
- Authors: Oliver Hahn, Nikita Araslanov, Simone Schaub-Meyer, Stefan Roth,
- Abstract要約: 教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
- 参考スコア(独自算出の注目度): 15.258631373740686
- License:
- Abstract: Unsupervised semantic segmentation aims to automatically partition images into semantically meaningful regions by identifying global semantic categories within an image corpus without any form of annotation. Building upon recent advances in self-supervised representation learning, we focus on how to leverage these large pre-trained models for the downstream task of unsupervised segmentation. We present PriMaPs - Principal Mask Proposals - decomposing images into semantically meaningful masks based on their feature representation. This allows us to realize unsupervised semantic segmentation by fitting class prototypes to PriMaPs with a stochastic expectation-maximization algorithm, PriMaPs-EM. Despite its conceptual simplicity, PriMaPs-EM leads to competitive results across various pre-trained backbone models, including DINO and DINOv2, and across different datasets, such as Cityscapes, COCO-Stuff, and Potsdam-3. Importantly, PriMaPs-EM is able to boost results when applied orthogonally to current state-of-the-art unsupervised semantic segmentation pipelines. Code is available at https://github.com/visinf/primaps.
- Abstract(参考訳): 教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
近年の自己教師付き表現学習の進歩を踏まえ、教師なしセグメンテーションの下流タスクにおいて、これらの大規模な事前訓練モデルをどのように活用するかに焦点をあてる。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、クラスプロトタイプをPriMaPsに確率的予測最大化アルゴリズムであるPriMaPs-EMで適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
PriMaPs-EMは概念的単純さにもかかわらず、DINOやDINOv2といった事前訓練されたバックボーンモデルや、Cityscapes、COCO-Stuff、Potsdam-3といったさまざまなデータセットに競合する結果をもたらす。
PriMaPs-EMは、現在の最先端の教師なしセマンティックセマンティックセグメンテーションパイプラインに直交して適用することで、結果を向上することができる。
コードはhttps://github.com/visinf/primaps.comで入手できる。
関連論文リスト
- SOHES: Self-supervised Open-world Hierarchical Entity Segmentation [82.45303116125021]
この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open World Hierarchical Entities)を提示する。
視覚的特徴クラスタリングにより高品質な擬似ラベルを生成し,教師同士の学習によって擬似ラベルの雑音を補正する。
学習データとして生画像を用いることにより,自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:46Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。