論文の概要: MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2209.04471v1
- Date: Fri, 9 Sep 2022 18:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:08:01.225559
- Title: MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic
Segmentation
- Title(参考訳): mcibi++: セマンティックセグメンテーションのための画像を超えたソフトマイニングコンテキスト情報
- Authors: Zhenchao Jin, Dongdong Yu, Zehuan Yuan, Lequan Yu
- Abstract要約: 我々は,MCIBI++という画像パラダイムを超えた,新しいソフトマイニングのコンテキスト情報を提案する。
我々は,各画素表現のクラス確率分布を生成し,データセットレベルのコンテキストアグリゲーションを実行する。
推論フェーズでは,さらにセグメンテーション結果を高めるために,粗大かつ微細な反復推論戦略を設計する。
- 参考スコア(独自算出の注目度): 29.458735435545048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-occurrent visual pattern makes context aggregation become an essential
paradigm for semantic segmentation.The existing studies focus on modeling the
contexts within image while neglecting the valuable semantics of the
corresponding category beyond image. To this end, we propose a novel soft
mining contextual information beyond image paradigm named MCIBI++ to further
boost the pixel-level representations. Specifically, we first set up a
dynamically updated memory module to store the dataset-level distribution
information of various categories and then leverage the information to yield
the dataset-level category representations during network forward. After that,
we generate a class probability distribution for each pixel representation and
conduct the dataset-level context aggregation with the class probability
distribution as weights. Finally, the original pixel representations are
augmented with the aggregated dataset-level and the conventional image-level
contextual information. Moreover, in the inference phase, we additionally
design a coarse-to-fine iterative inference strategy to further boost the
segmentation results. MCIBI++ can be effortlessly incorporated into the
existing segmentation frameworks and bring consistent performance improvements.
Also, MCIBI++ can be extended into the video semantic segmentation framework
with considerable improvements over the baseline. Equipped with MCIBI++, we
achieved the state-of-the-art performance on seven challenging image or video
semantic segmentation benchmarks.
- Abstract(参考訳): 共起型視覚パターンはコンテキスト集約を意味的セグメンテーションに必須のパラダイムとし、既存の研究では、画像以外のカテゴリの貴重な意味を無視しながら、画像内のコンテキストをモデル化することに重点を置いている。
そこで本研究では,MCIBI++という画像パラダイムを超越したソフトマイニングのコンテキスト情報を提案し,ピクセルレベルの表現をさらに強化する。
具体的には、まず動的に更新されたメモリモジュールを設定し、様々なカテゴリのデータセットレベルの分布情報を格納し、その情報を利用して、ネットワーク転送中にデータセットレベルのカテゴリ表現を生成する。
その後、各画素表現に対してクラス確率分布を生成し、クラス確率分布を重みとしてデータセットレベルのコンテキスト集約を行う。
最後に、元の画素表現を集約データセットレベルと従来の画像レベルのコンテキスト情報で拡張する。
さらに, 推定段階では, 分割結果をさらに高めるために, 粗大から細かな反復的推論戦略も設計する。
MCIBI++は、既存のセグメンテーションフレームワークに懸命に組み込むことができ、一貫したパフォーマンス改善をもたらす。
また、mcibi++はビデオセマンティクスセグメンテーションフレームワークに拡張でき、ベースラインを大幅に改善することができる。
MCIBI++と組み合わせて、7つの挑戦的な画像またはビデオセマンティックセグメンテーションベンチマークで最先端のパフォーマンスを達成した。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - ISNet: Integrate Image-Level and Semantic-Level Context for Semantic
Segmentation [64.56511597220837]
共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。
既存のアプローチは、画像全体の観点からコンテキストをモデル化すること、すなわち、画像レベルのコンテキスト情報を集約することに焦点を当てている。
本稿では,画像レベルと意味レベルの文脈情報を集約することで,ピクセル表現を増大させる手法を提案する。
論文 参考訳(メタデータ) (2021-08-27T16:38:22Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。