論文の概要: Mining Contextual Information Beyond Image for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2108.11819v1
- Date: Thu, 26 Aug 2021 14:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 18:21:53.115524
- Title: Mining Contextual Information Beyond Image for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのための画像を超えた文脈情報のマイニング
- Authors: Zhenchao Jin, Tao Gong, Dongdong Yu, Qi Chu, Jian Wang, Changhu Wang,
Jie Shao
- Abstract要約: セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
- 参考スコア(独自算出の注目度): 37.783233906684444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the context aggregation problem in semantic image
segmentation. The existing researches focus on improving the pixel
representations by aggregating the contextual information within individual
images. Though impressive, these methods neglect the significance of the
representations of the pixels of the corresponding class beyond the input
image. To address this, this paper proposes to mine the contextual information
beyond individual images to further augment the pixel representations. We first
set up a feature memory module, which is updated dynamically during training,
to store the dataset-level representations of various categories. Then, we
learn class probability distribution of each pixel representation under the
supervision of the ground-truth segmentation. At last, the representation of
each pixel is augmented by aggregating the dataset-level representations based
on the corresponding class probability distribution. Furthermore, by utilizing
the stored dataset-level representations, we also propose a representation
consistent learning strategy to make the classification head better address
intra-class compactness and inter-class dispersion. The proposed method could
be effortlessly incorporated into existing segmentation frameworks (e.g., FCN,
PSPNet, OCRNet and DeepLabV3) and brings consistent performance improvements.
Mining contextual information beyond image allows us to report state-of-the-art
performance on various benchmarks: ADE20K, LIP, Cityscapes and COCO-Stuff.
- Abstract(参考訳): 本稿では,セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
既存の研究は、個々の画像内の文脈情報を集約することで、画素表現を改善することに焦点を当てている。
印象的ではあるが、これらの手法は入力画像を超えた対応するクラスのピクセルの表現の重要性を無視している。
そこで本稿では,画素表現をさらに強化するために,個々の画像を超えた文脈情報をマイニングすることを提案する。
まず、トレーニング中に動的に更新される機能メモリモジュールを設定して、さまざまなカテゴリのデータセットレベルの表現を格納した。
そして,各画素表現のクラス確率分布を,接地木分割の監督下で学習する。
最後に、対応するクラス確率分布に基づいてデータセットレベルの表現を集約することにより、各ピクセルの表現を増強する。
さらに,記憶されたデータセットレベルの表現を利用することで,クラス内コンパクト性とクラス間分散をよりよく扱うための表現一貫性のある学習戦略を提案する。
提案手法は既存のセグメンテーションフレームワーク(例えば、fcn, pspnet, ocrnet, deeplabv3)に無益に組み込むことができ、一貫したパフォーマンス改善をもたらす。
画像を超えてコンテキスト情報をマイニングすることで、ADE20K、LIP、Cityscapes、COCO-Stuffといった様々なベンチマークで最先端のパフォーマンスを報告できます。
関連論文リスト
- Pixel-Level Clustering Network for Unsupervised Image Segmentation [3.69853388955692]
画像の領域分割のためのピクセルレベルのクラスタリングフレームワークを,地上の真理アノテーションを使わずに提案する。
また、各スーパーピクセル間の一貫性、隣接するスーパーピクセル間の相似性/相似性、画像間の構造的類似性を利用したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-24T23:06:29Z) - Class-level Multiple Distributions Representation are Necessary for
Semantic Segmentation [9.796689408601775]
クラス内変動を複数の分布で記述する手法を初めて紹介する。
また,組込み画素の識別的多重分布表現を構築するためのクラス多重分布整合性戦略を提案する。
我々のアプローチは、一般的なセグメンテーションフレームワークFCN/PSPNet/CCNetにシームレスに統合され、5.61%/1.75%/0.75% mIoUの改善がADE20Kで達成される。
論文 参考訳(メタデータ) (2023-03-14T16:10:36Z) - MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic
Segmentation [29.458735435545048]
我々は,MCIBI++という画像パラダイムを超えた,新しいソフトマイニングのコンテキスト情報を提案する。
我々は,各画素表現のクラス確率分布を生成し,データセットレベルのコンテキストアグリゲーションを実行する。
推論フェーズでは,さらにセグメンテーション結果を高めるために,粗大かつ微細な反復推論戦略を設計する。
論文 参考訳(メタデータ) (2022-09-09T18:03:52Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - ISNet: Integrate Image-Level and Semantic-Level Context for Semantic
Segmentation [64.56511597220837]
共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。
既存のアプローチは、画像全体の観点からコンテキストをモデル化すること、すなわち、画像レベルのコンテキスト情報を集約することに焦点を当てている。
本稿では,画像レベルと意味レベルの文脈情報を集約することで,ピクセル表現を増大させる手法を提案する。
論文 参考訳(メタデータ) (2021-08-27T16:38:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。