論文の概要: RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion
- arxiv url: http://arxiv.org/abs/2407.21631v2
- Date: Thu, 22 Aug 2024 07:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:46:20.157810
- Title: RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion
- Title(参考訳): RoadFormer+: 大規模情報デカップリングと高度不均一特徴融合によるRGB-Xシーンの構文解析
- Authors: Jianxin Huang, Jiahang Li, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Rui Fan,
- Abstract要約: RoadFormerは、RGB画像と表面正規地図から不均一な特徴を抽出することに成功した。
RoadFormer+は、ディープ、サーマル、サーフェスノーマル、ポーラライゼーションなどのデータの追加タイプ/モダリティを表す。
RoadFormer+ は KITTI Road ベンチマークで第1位にランクインし、組合間の交差平均で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 23.08593450089786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-specific data-fusion networks have marked considerable achievements in urban scene parsing. Among these networks, our recently proposed RoadFormer successfully extracts heterogeneous features from RGB images and surface normal maps and fuses these features through attention mechanisms, demonstrating compelling efficacy in RGB-Normal road scene parsing. However, its performance significantly deteriorates when handling other types/sources of data or performing more universal, all-category scene parsing tasks. To overcome these limitations, this study introduces RoadFormer+, an efficient, robust, and adaptable model capable of effectively fusing RGB-X data, where ``X'', represents additional types/modalities of data such as depth, thermal, surface normal, and polarization. Specifically, we propose a novel hybrid feature decoupling encoder to extract heterogeneous features and decouple them into global and local components. These decoupled features are then fused through a dual-branch multi-scale heterogeneous feature fusion block, which employs parallel Transformer attentions and convolutional neural network modules to merge multi-scale features across different scales and receptive fields. The fused features are subsequently fed into a decoder to generate the final semantic predictions. Notably, our proposed RoadFormer+ ranks first on the KITTI Road benchmark and achieves state-of-the-art performance in mean intersection over union on the Cityscapes, MFNet, FMB, and ZJU datasets. Moreover, it reduces the number of learnable parameters by 65\% compared to RoadFormer. Our source code will be publicly available at mias.group/RoadFormerPlus.
- Abstract(参考訳): タスク固有のデータ融合ネットワークは、都市景観解析において大きな成果を上げている。
これらのネットワークの中で,最近提案したRoadFormerは,RGB画像と表面正規マップから異種特徴を抽出し,注意機構を通じてそれらの特徴を融合させ,RGB-Normal道路シーン解析において有意義な有効性を示す。
しかし、他のタイプのデータやソースを扱う場合や、より普遍的でオールカテゴリのシーン解析タスクを実行する場合、その性能は著しく低下する。
これらの制限を克服するために、RoadFormer+は効率的で堅牢で適応可能なモデルであり、RGB-Xデータを効果的に融合させることができる。
具体的には、異種特徴を抽出し、それらをグローバルおよびローカルなコンポーネントに分離するハイブリッド機能デカップリングエンコーダを提案する。
これらの分離された機能は、並列トランスフォーマーの注意と畳み込みニューラルネットワークモジュールを使用して、異なるスケールと受容フィールドにまたがるマルチスケールの機能をマージする、デュアルブランチのマルチスケールの異種機能融合ブロックを通じて融合される。
融合した特徴はその後デコーダに入力され、最終的な意味予測を生成する。
特に,提案した RoadFormer+ は KITTI Road ベンチマークで第1位であり,Cityscapes,MFNet,FMB,ZJU のデータセット上での結合平均で最先端のパフォーマンスを達成している。
さらに、RoadFormerと比較して学習可能なパラメータの数を65\%削減します。
私たちのソースコードは mias.group/RoadFormerPlus で公開されます。
関連論文リスト
- Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing [17.118074007418123]
RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。
RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
論文 参考訳(メタデータ) (2023-09-19T06:32:19Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。