論文の概要: AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile
Platform Real-Time RGB-D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.14065v6
- Date: Sat, 9 Mar 2024 09:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:20:43.044592
- Title: AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile
Platform Real-Time RGB-D Semantic Segmentation
- Title(参考訳): asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習
- Authors: Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang
- Abstract要約: AsymFormerはリアルタイムRGB-Dセマンティックセグメンテーションのための新しいネットワークである。
計算資源の分布を最適化することにより、超流動パラメータの最小化を目標とする。
AsymFormerは65 FPSの推論速度を達成し、混合精度の量子化を実装した後、79 FPSの印象的な推論速度を達成する。
- 参考スコア(独自算出の注目度): 2.1028463367241033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of robotic intelligence, achieving efficient and precise RGB-D
semantic segmentation is a key cornerstone. State-of-the-art multimodal
semantic segmentation methods, primarily rooted in symmetrical skeleton
networks, find it challenging to harmonize computational efficiency and
precision. In this work, we propose AsymFormer, a novel network for real-time
RGB-D semantic segmentation, which targets the minimization of superfluous
parameters by optimizing the distribution of computational resources and
introduces an asymmetrical backbone to allow for the effective fusion of
multimodal features. Furthermore, we explore techniques to bolster network
accuracy by redefining feature selection and extracting multi-modal
self-similarity features without a substantial increase in the parameter count,
thereby ensuring real-time execution on robotic platforms. Additionally, a
Local Attention-Guided Feature Selection (LAFS) module is used to selectively
fuse features from different modalities by leveraging their dependencies.
Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding
(CMA) module is introduced to further extract cross-modal representations. This
method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer
demonstrating competitive results with 54.1% mIoU on NYUv2 and 49.1% mIoU on
SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after
implementing mixed precision quantization, it attains an impressive inference
speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal
methods, thereby demonstrating that AsymFormer can strike a balance between
high accuracy and efficiency for RGB-D semantic segmentation.
- Abstract(参考訳): ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。
最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。
本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。
さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。
さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。
その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。
この手法はNYUv2とSUNRGBDのデータセットで評価され、AsymFormerはNYUv2で54.1% mIoU、SUNRGBDで49.1% mIoUと競合する結果を示した。
特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。
これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。
関連論文リスト
- Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。