論文の概要: MLSeg: Image and Video Segmentation as Multi-Label Classification and
Selected-Label Pixel Classification
- arxiv url: http://arxiv.org/abs/2203.04187v1
- Date: Tue, 8 Mar 2022 16:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 16:52:28.811460
- Title: MLSeg: Image and Video Segmentation as Multi-Label Classification and
Selected-Label Pixel Classification
- Title(参考訳): MLSeg:マルチラベル分類と選択ラベル画素分類のための画像とビデオのセグメンテーション
- Authors: Haodi He and Yuhui Yuan and Xiangyu Yue and Han Hu
- Abstract要約: セグメンテーションを2つのサブプロブレムに分解する: (i) 画像レベルまたはビデオレベルのマルチラベル分類と (ii) ピクセルレベルの選択ラベル分類である。
4つの課題にまたがる競争実験により,本フレームワークの有効性を実証した。
- 参考スコア(独自算出の注目度): 21.645298292680103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a long period of time, research studies on segmentation have typically
formulated the task as pixel classification that predicts a class for each
pixel from a set of predefined, fixed number of semantic categories. Yet
standard architectures following this formulation will inevitably encounter
various challenges under more realistic settings where the total number of
semantic categories scales up (e.g., beyond $1\rm{k}$ classes). On the other
hand, a standard image or video usually contains only a small number of
semantic categories from the entire label set. Motivated by this intuition, in
this paper, we propose to decompose segmentation into two sub-problems: (i)
image-level or video-level multi-label classification and (ii) pixel-level
selected-label classification. Given an input image or video, our framework
first conducts multi-label classification over the large complete label set and
selects a small set of labels according to the class confidence scores. Then
the follow-up pixel-wise classification is only performed among the selected
subset of labels. Our approach is conceptually general and can be applied to
various existing segmentation frameworks by simply adding a lightweight
multi-label classification branch. We demonstrate the effectiveness of our
framework with competitive experimental results across four tasks including
image semantic segmentation, image panoptic segmentation, video instance
segmentation, and video semantic segmentation. Especially, with our MLSeg,
Mask$2$Former gains +$0.8\%$/+$0.7\%$/+$0.7\%$ on ADE$20$K panoptic
segmentation/YouTubeVIS $2019$ video instance segmentation/VSPW video semantic
segmentation benchmarks respectively. Code will be available
at:https://github.com/openseg-group/MLSeg
- Abstract(参考訳): 長い間、セグメンテーションの研究は、通常、各ピクセルのクラスを予め定義された固定数のセマンティックカテゴリの集合から予測するピクセル分類としてタスクを定式化してきた。
しかし、この定式化に続く標準的なアーキテクチャは、セマンティックなカテゴリの総数(例えば、$ $1\rm{k}$クラスを超えて)がスケールアップするより現実的な設定下では、必然的に様々な課題に直面する。
一方、標準的な画像やビデオはラベルセット全体から少数の意味カテゴリーしか含まない。
この直感に動機づけられた本論文では,セグメンテーションを2つのサブプロブレムに分解することを提案する。
(i)画像レベル又は映像レベルマルチラベル分類及び
(ii)画素レベル選択ラベル分類。
入力画像やビデオが与えられた場合,我々はまず,大規模完全ラベル集合に対して複数ラベルの分類を行い,クラス信頼度スコアに応じて,少数のラベルを選択する。
そして、フォローアップ画素単位の分類は、選択されたラベルサブセット間でのみ実行される。
提案手法は概念的に一般的であり,軽量なマルチラベル分類分岐を追加することで,既存のセグメンテーションフレームワークに適用することができる。
画像意味分割, 画像パノプティクス分割, ビデオインスタンス分割, ビデオセマンティックセマンティックセマンティクスの4つのタスクにまたがる競合実験結果を用いて, 本フレームワークの有効性を実証する。
特に、mlsegでは、2$formerは$0.8\%$/+$0.7\%$/+$0.7\%$ ade$20$k panoptic segmentation/youtubevis 2019$ video instance segmentation/vspw video semantic segmentation benchmarksでそれぞれ$0.8.7\%$を得る。
コードは次の通り。https://github.com/openseg-group/MLSeg
関連論文リスト
- Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Active Learning for Semantic Segmentation with Multi-class Label Query [34.49769523529307]
本稿では,セマンティックセグメンテーションのための新しいアクティブラーニング手法を提案する。
個々のピクセルに部分ラベルを割り当てると、トレーニングにおけるクラスあいまいさの問題が発生する。
第一段階では、部分ラベルと直接セグメンテーションモデルを訓練する。
第2段階では、画素単位の擬似ラベルを生成して部分ラベルを曖昧にする。
論文 参考訳(メタデータ) (2023-09-17T16:23:34Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - SegGPT: Segmenting Everything In Context [98.98487097934067]
コンテキスト内ですべてをセグメント化するモデルであるSegGPTを提示する。
様々なセグメンテーションタスクを汎用的なインコンテキスト学習フレームワークに統合する。
SegGPTは、コンテクスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。
論文 参考訳(メタデータ) (2023-04-06T17:59:57Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Label conditioned segmentation [14.66405859401613]
セマンティックセグメンテーションはコンピュータビジョンにおいて重要なタスクであり、畳み込みニューラルネットワーク(CNN)にしばしば取り組まれる。
複数のクラスを持つセグメンテーションタスクに対して、標準的なアプローチはマルチチャネル確率的セグメンテーションマップを計算するネットワークを使用することである。
本稿では,この課題に対処するための簡易かつ効果的な方法を提案する。
提案手法では,ネットワークの出力クラスを決定する単一クラスラベルで条件付きで単一チャネル出力を生成する。
論文 参考訳(メタデータ) (2022-03-17T22:21:10Z) - Semantic Segmentation In-the-Wild Without Seeing Any Segmentation
Examples [34.97652735163338]
本稿では,各オブジェクトに対するセマンティックセグメンテーションマスク作成のための新しいアプローチを提案する。
本手法は,画像に含まれるクラスカテゴリのイメージレベルラベルを入力として扱う。
このステージの出力は、教師付きメソッドが必要とする手動のピクセルレベルラベルの代わりに、ピクセルレベルの擬似ラベルを提供する。
論文 参考訳(メタデータ) (2021-12-06T17:32:38Z) - Open-World Entity Segmentation [70.41548013910402]
我々は、意味圏ラベルを考慮せずに、画像内のすべての視覚的エンティティをセグメント化することを目的として、Entity(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。
意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。
1) 複数のデータセットをマージしてラベルの衝突を解決することなく大規模なトレーニングセットを形成すること、2) 1つのデータセットでトレーニングされたモデルが、目に見えないドメインを持つ他のデータセットに対して、例外的にうまく一般化することができること、である。
論文 参考訳(メタデータ) (2021-07-29T17:59:05Z) - KRADA: Known-region-aware Domain Alignment for Open World Semantic
Segmentation [64.03817806316903]
セマンティックセグメンテーションでは、画像中のすべてのピクセルにカテゴリラベルを割り当てるために、ピクセルレベルの分類器を訓練することを目指している。
オープンな世界では、ラベル付けされていないテスト画像はおそらく未知のカテゴリを含み、ラベル付けされた画像とは異なる分布を持つ。
本稿では,未知のクラスを識別し,ラベル付きおよびラベルなしのオープンワールド画像中の既知のクラスの分布を整列する,エンドツーエンドの学習フレームワークKRADAを提案する。
論文 参考訳(メタデータ) (2021-06-11T08:43:59Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。