論文の概要: A Deep Semantic Segmentation Network with Semantic and Contextual Refinements
- arxiv url: http://arxiv.org/abs/2412.08671v1
- Date: Wed, 11 Dec 2024 03:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:02:01.435125
- Title: A Deep Semantic Segmentation Network with Semantic and Contextual Refinements
- Title(参考訳): セマンティック・テクスチュアル・リファインメントを用いたディープセマンティック・セマンティック・セグメンテーション・ネットワーク
- Authors: Zhiyan Wang, Deyin Liu, Lin Yuanbo Wu, Song Wang, Xin Guo, Lin Qi,
- Abstract要約: 本稿では,セグメンテーションネットワーク内でこの問題に対処するためのセマンティックリファインメントモジュール(SRM)を提案する。
CRM(Contextual Refinement Module)は、空間次元とチャネル次元の両方にわたるグローバルなコンテキスト情報をキャプチャする。
これらのモジュールの有効性は、3つの広く使われているデータセット(Cityscapes, Bdd100K, ADE20K-demonstrating)で検証される。
- 参考スコア(独自算出の注目度): 11.755865577258767
- License:
- Abstract: Semantic segmentation is a fundamental task in multimedia processing, which can be used for analyzing, understanding, editing contents of images and videos, among others. To accelerate the analysis of multimedia data, existing segmentation researches tend to extract semantic information by progressively reducing the spatial resolutions of feature maps. However, this approach introduces a misalignment problem when restoring the resolution of high-level feature maps. In this paper, we design a Semantic Refinement Module (SRM) to address this issue within the segmentation network. Specifically, SRM is designed to learn a transformation offset for each pixel in the upsampled feature maps, guided by high-resolution feature maps and neighboring offsets. By applying these offsets to the upsampled feature maps, SRM enhances the semantic representation of the segmentation network, particularly for pixels around object boundaries. Furthermore, a Contextual Refinement Module (CRM) is presented to capture global context information across both spatial and channel dimensions. To balance dimensions between channel and space, we aggregate the semantic maps from all four stages of the backbone to enrich channel context information. The efficacy of these proposed modules is validated on three widely used datasets-Cityscapes, Bdd100K, and ADE20K-demonstrating superior performance compared to state-of-the-art methods. Additionally, this paper extends these modules to a lightweight segmentation network, achieving an mIoU of 82.5% on the Cityscapes validation set with only 137.9 GFLOPs.
- Abstract(参考訳): セマンティックセグメンテーションはマルチメディア処理における基本的なタスクであり、画像やビデオの内容を分析、理解、編集するために使用できる。
マルチメディアデータの解析を高速化するため,既存のセグメンテーション研究では,特徴マップの空間分解能を段階的に低減することで意味情報を抽出する傾向にある。
しかし,本手法では,高次特徴写像の分解能を復元する際の不整合問題を提起する。
本稿では,セグメンテーションネットワーク内でこの問題に対処するためのセマンティックリファインメントモジュール(SRM)を設計する。
具体的には、SRMは、高解像度の特徴写像と近隣のオフセットによって導かれる、アップサンプリングされた特徴写像の各画素の変換オフセットを学習するように設計されている。
これらのオフセットをアップサンプリングされた特徴写像に適用することにより、SRMはセグメンテーションネットワークのセグメンテーション表現を強化する。
さらに,CRM(Contextual Refinement Module)が提示され,空間次元とチャネル次元の両方にわたるグローバルなコンテキスト情報をキャプチャする。
チャネルと空間の次元のバランスをとるために、バックボーンの全4段階から意味マップを集約し、チャネルコンテキスト情報を強化する。
これらのモジュールの有効性は、3つの広く使われているデータセット(Cityscapes, Bdd100K, ADE20K-demonstrating)で検証される。
さらに,これらのモジュールを軽量セグメンテーションネットワークに拡張し,137.9 GFLOPのCityscapes検証セットで82.5%のmIoUを達成する。
関連論文リスト
- FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Few-shot Segmentation with Optimal Transport Matching and Message Flow [50.9853556696858]
サポート情報を完全に活用するためには、少数ショットのセマンティックセマンティックセグメンテーションが不可欠である。
本稿では,最適輸送マッチングモジュールを備えた通信マッチングネットワーク(CMNet)を提案する。
PASCAL VOC 2012、MS COCO、FSS-1000データセットによる実験により、我々のネットワークは最新の数ショットセグメンテーション性能を新たに達成した。
論文 参考訳(メタデータ) (2021-08-19T06:26:11Z) - Residual Moment Loss for Medical Image Segmentation [56.72261489147506]
位置情報は,対象物体の多様体構造を捉えた深層学習モデルに有効であることが証明された。
既存のほとんどの手法は、ネットワークが学習するために、位置情報を暗黙的にエンコードする。
セグメント化対象の位置情報を明示的に埋め込むために,新しい損失関数,すなわち残差モーメント(RM)損失を提案する。
論文 参考訳(メタデータ) (2021-06-27T09:31:49Z) - CSRNet: Cascaded Selective Resolution Network for Real-time Semantic
Segmentation [18.63596070055678]
本稿では,リアルタイムセグメンテーションの性能向上を図るために,光カスケード選択分解ネットワーク(CSRNet)を提案する。
提案するネットワークは,低解像度から高解像度までの特徴情報を統合した3段階セグメンテーションシステムを構築している。
2つのよく知られたデータセットの実験により、提案したCSRNetはリアルタイムセグメンテーションの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2021-06-08T14:22:09Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。