論文の概要: ShareCMP: Polarization-Aware RGB-P Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.03430v3
- Date: Fri, 04 Jul 2025 09:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.02023
- Title: ShareCMP: Polarization-Aware RGB-P Semantic Segmentation
- Title(参考訳): ShareCMP: 分極を考慮したRGB-Pセマンティックセマンティックセグメンテーション
- Authors: Zhuoyan Liu, Bo Wang, Lizhi Wang, Chenyu Mao, Ye Li,
- Abstract要約: 共有デュアルブランチアーキテクチャ(ShareCMP)を用いたRGB-Pセマンティックセマンティックセマンティックセマンティクスフレームワークを設計する。
ShareCMPは、UPLight (92.45 Small (+0.32)%)、ZJU (92.7 Small (+0.1%)、MCubeS (50.99 Small (+1.51)%)のデータセットでパラメータが少ないmIoUで最高のパフォーマンスを達成する。
われわれのShareCMPは、対応する最先端のRGB-X手法と比較して、他のRGB-Xデータセットの競合や、さらに高いパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 11.29398571140582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal semantic segmentation is developing rapidly, but the modality of RGB-\textbf{P}olarization remains underexplored. To delve into this problem, we construct a UPLight RGB-P segmentation benchmark with 12 typical underwater semantic classes. In this work, we design the ShareCMP, an RGB-P semantic segmentation framework with a shared dual-branch architecture (ShareCMP Encoder), which reduces the parameters and memory space by about 33.8\% compared to previous dual-branch models. It encompasses a Polarization Generate Attention (PGA) module designed to generate polarization modal images with richer polarization properties for the encoder. In addition, we introduce the Class Polarization-Aware Loss (CPALoss) with Class Polarization-Aware Auxiliary Head (CPAAHead) to improve the learning and understanding of the encoder for polarization modal information and to optimize the PGA module. With extensive experiments on a total of three RGB-P benchmarks, our ShareCMP achieves the best performance in mIoU with fewer parameters on the UPLight (92.45{\small (+0.32)}\%), ZJU (92.7{\small (+0.1)}\%), and MCubeS (50.99{\small (+1.51)}\%) datasets. And our ShareCMP (w/o PGA) achieves competitive or even higher performance on other RGB-X datasets compared to the corresponding state-of-the-art RGB-X methods. The code and datasets are available at https://github.com/LEFTeyex/ShareCMP.
- Abstract(参考訳): マルチモーダルなセマンティックセグメンテーションは急速に発展しているが、RGB-\textbf{P}オラライゼーションのモダリティは未解明のままである。
そこで本研究では,12種類の水中意味クラスを持つUPLight RGB-Pセグメンテーションベンチマークを構築した。
本研究では,共有デュアルブランチアーキテクチャ(ShareCMP Encoder)を備えたRGB-PセマンティックセマンティックセマンティクスフレームワークであるShareCMPを設計する。
エンコーダのよりリッチな偏光特性を持つ偏光変調画像を生成するために設計された偏光生成注意(PGA)モジュールを含んでいる。
さらに,クラスポラリゼーション・アウェア・ロス(CPALoss)とクラスポラリゼーション・アウェア・補助ヘッド(CPAAHead)を導入し,エンコーダの学習と理解を改善し,PGAモジュールを最適化する。
合計3つのRGB-Pベンチマークに関する広範な実験により、ShareCMPは、UPLight (92.45{\small (+0.32)}\%)、ZJU (92.7{\small (+0.1)}\%)、MCubeS (50.99{\small (+1.51)}\%) のパラメータが少ないmIoUで最高のパフォーマンスを達成する。
また、ShareCMP(w/o PGA)は、対応する最先端のRGB-X手法と比較して、他のRGB-Xデータセット上での競合や、さらに高いパフォーマンスを実現しています。
コードとデータセットはhttps://github.com/LEFTeyex/ShareCMPで公開されている。
関連論文リスト
- SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds [51.313922535437726]
本研究では,高密度点雲のエンドツーエンド圧縮法を提案する。
提案手法は,周波数サンプリングモジュール,適応スケール特徴抽出モジュール,幾何支援モジュール,大域的ハイパープライアエントロピーモデルを組み合わせた。
論文 参考訳(メタデータ) (2024-09-16T13:59:43Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文 参考訳(メタデータ) (2023-01-11T18:59:46Z) - Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文 参考訳(メタデータ) (2022-10-17T13:14:47Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。