論文の概要: ISNet: Integrate Image-Level and Semantic-Level Context for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2108.12382v1
- Date: Fri, 27 Aug 2021 16:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:51:54.058052
- Title: ISNet: Integrate Image-Level and Semantic-Level Context for Semantic
Segmentation
- Title(参考訳): ISNet:セマンティックセグメンテーションのための画像レベルと意味レベルコンテキストの統合
- Authors: Zhenchao Jin, Bin Liu, Qi Chu, Nenghai Yu
- Abstract要約: 共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。
既存のアプローチは、画像全体の観点からコンテキストをモデル化すること、すなわち、画像レベルのコンテキスト情報を集約することに焦点を当てている。
本稿では,画像レベルと意味レベルの文脈情報を集約することで,ピクセル表現を増大させる手法を提案する。
- 参考スコア(独自算出の注目度): 64.56511597220837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-occurrent visual pattern makes aggregating contextual information a common
paradigm to enhance the pixel representation for semantic image segmentation.
The existing approaches focus on modeling the context from the perspective of
the whole image, i.e., aggregating the image-level contextual information.
Despite impressive, these methods weaken the significance of the pixel
representations of the same category, i.e., the semantic-level contextual
information. To address this, this paper proposes to augment the pixel
representations by aggregating the image-level and semantic-level contextual
information, respectively. First, an image-level context module is designed to
capture the contextual information for each pixel in the whole image. Second,
we aggregate the representations of the same category for each pixel where the
category regions are learned under the supervision of the ground-truth
segmentation. Third, we compute the similarities between each pixel
representation and the image-level contextual information, the semantic-level
contextual information, respectively. At last, a pixel representation is
augmented by weighted aggregating both the image-level contextual information
and the semantic-level contextual information with the similarities as the
weights. Integrating the image-level and semantic-level context allows this
paper to report state-of-the-art accuracy on four benchmarks, i.e., ADE20K,
LIP, COCOStuff and Cityscapes.
- Abstract(参考訳): 共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。
既存のアプローチでは、画像全体、すなわち画像レベルのコンテキスト情報を集約する観点から、コンテキストのモデリングに焦点を当てている。
これらの手法は印象的ではあるが、同じカテゴリのピクセル表現、すなわち意味レベルの文脈情報の重要性を弱める。
そこで本稿では,画像レベルと意味レベルのコンテキスト情報をそれぞれ集約することにより,画素表現の強化を提案する。
まず、画像レベルコンテキストモジュールは、画像内の各ピクセルのコンテキスト情報をキャプチャするように設計されている。
第2に,各画素毎に同じカテゴリの表現を集約し,各カテゴリ領域を接地木分割の監督の下で学習する。
第3に,各画素表現と画像レベルの文脈情報,意味レベルの文脈情報との類似性を計算する。
最後に、画像レベルのコンテキスト情報と意味レベルのコンテキスト情報の両方を重み付けし、重み付けとして類似度を持たせてピクセル表現を増強する。
画像レベルのコンテキストとセマンティックレベルのコンテキストを統合することで,ade20k,lip,cocostuff,cityscapesの4つのベンチマークにおいて,最先端の精度を報告できる。
関連論文リスト
- Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic
Segmentation [29.458735435545048]
我々は,MCIBI++という画像パラダイムを超えた,新しいソフトマイニングのコンテキスト情報を提案する。
我々は,各画素表現のクラス確率分布を生成し,データセットレベルのコンテキストアグリゲーションを実行する。
推論フェーズでは,さらにセグメンテーション結果を高めるために,粗大かつ微細な反復推論戦略を設計する。
論文 参考訳(メタデータ) (2022-09-09T18:03:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks [5.840117063192334]
テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャするマルチモーダルタスクであるVICTRを提案する。
本稿では,シーングラフとそれに対応する幾何学的関係情報をグラフ畳み込みネットワークを用いて学習する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
論文 参考訳(メタデータ) (2020-10-07T05:25:30Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。