Fugu-MT 論文翻訳(概要): ShareCMP: Polarization-Aware RGB-P Semantic Segmentation

論文の概要: ShareCMP: Polarization-Aware RGB-P Semantic Segmentation

arxiv url: http://arxiv.org/abs/2312.03430v1
Date: Wed, 6 Dec 2023 11:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 15:08:38.089106
Title: ShareCMP: Polarization-Aware RGB-P Semantic Segmentation
Title（参考訳）: ShareCMP: 偏光対応RGB-Pセマンティックセグメンテーション
Authors: Zhuoyan Liu, Bo Wang, Lizhi Wang, Chenyu Mao, Ye Li
Abstract要約: ShareCMPはRGB-Pセマンティックセマンティックセグメンテーションフレームワークで、共有デュアルブランチアーキテクチャを持つ。エンコーダのよりリッチな偏光特性を持つ偏光変調画像を生成する。 UPLight(92.45%)、ZJU(92.7%)、MCubeS(50.99%)のデータセットではパラメータが少なく、mIoUの最先端のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 12.116706876297583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal semantic segmentation is developing rapidly, but the modality of RGB-Polarization remains underexplored. To delve into this problem, we construct a UPLight RGB-P segmentation benchmark with 12 typical underwater semantic classes which provides data support for Autonomous Underwater Vehicles (AUVs) to perform special perception tasks. In this work, we design the ShareCMP, an RGB-P semantic segmentation framework with a shared dual-branch architecture, which reduces the number of parameters by about 26-33% compared to previous dual-branch models. It encompasses a Polarization Generate Attention (PGA) module designed to generate polarization modal images with richer polarization properties for the encoder. In addition, we introduce the Class Polarization-Aware Loss (CPALoss) to improve the learning and understanding of the encoder for polarization modal information and to optimize the PGA module. With extensive experiments on a total of three RGB-P benchmarks, our ShareCMP achieves state-of-the-art performance in mIoU with fewer parameters on the UPLight (92.45%), ZJU (92.7%), and MCubeS (50.99%) datasets. The code is available at https://github.com/LEFTeyex/ShareCMP.
Abstract（参考訳）: マルチモーダルなセマンティックセグメンテーションは急速に発展しているが、RGB-Polarizationのモダリティはいまだ解明されていない。そこで本研究では,12種類の水中セマンティッククラスを用いたUPLight RGB-Pセグメンテーションベンチマークを構築し,AUV(Autonomous Underwater Vehicles)のデータ支援を行い,特殊認識タスクを行う。本研究では,dual-branchアーキテクチャを持つrgb-pセマンティクスセグメンテーションフレームワークであるsharecmpを設計し,従来のdual-branchモデルと比較してパラメータ数を約26～33%削減した。エンコーダの偏光特性が豊かな偏光モーダル画像を生成するように設計された偏光生成注意(pga)モジュールを包含する。さらに,偏波モーダル情報のためのエンコーダの学習と理解を改善し,pgaモジュールを最適化するために,クラス偏波認識損失(cpaloss)を導入する。合計3つのRGB-Pベンチマークに関する広範な実験により、ShareCMPは、UPLight(92.45%)、ZJU(92.7%)、MCubeS(50.99%)のデータセットのパラメータが少ないmIoUの最先端のパフォーマンスを達成した。コードはhttps://github.com/LEFTeyex/ShareCMPで入手できる。

関連論文リスト

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders [52.61034140869803]
Region Network (REN) は、ポイントプロンプトを用いて領域ベースの画像表現を生成するための高速で効果的なモデルである。 RENは、リージョントークンを直接生成する軽量モジュールを使用して、このボトルネックをバイパスする。これはいくつかのクロスアテンションブロックを使用し、ポイントプロンプトをクエリとして取り、パッチベースのイメージエンコーダからキーと値として機能してリージョントークンを生成する。
論文参考訳（メタデータ） (2025-05-23T17:59:33Z)
SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds [51.313922535437726]
本研究では,高密度点雲のエンドツーエンド圧縮法を提案する。提案手法は,周波数サンプリングモジュール,適応スケール特徴抽出モジュール,幾何支援モジュール,大域的ハイパープライアエントロピーモデルを組み合わせた。
論文参考訳（メタデータ） (2024-09-16T13:59:43Z)
Channel and Spatial Relation-Propagation Network for RGB-Thermal Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。 RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文参考訳（メタデータ） (2023-08-24T03:43:47Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-16T16:49:59Z)
Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-25T04:27:43Z)
Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文参考訳（メタデータ） (2023-01-11T18:59:46Z)
Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文参考訳（メタデータ） (2022-10-17T13:14:47Z)
Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-06T11:46:37Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文参考訳（メタデータ） (2021-08-18T12:41:36Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文参考訳（メタデータ） (2020-07-14T04:40:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。