Fugu-MT 論文翻訳(概要): SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

論文の概要: SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

arxiv url: http://arxiv.org/abs/2308.12863v1
Date: Thu, 24 Aug 2023 15:34:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 13:38:49.729175
Title: SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection
Title（参考訳）: SkipcrossNets: 道路検出のための適応的スキップクロスフュージョン
Authors: Xinyu Zhang, Yan Gong, Zhiwei Li, Xin Gao, Dafeng Jin, Jun Li, and Huaping Liu
Abstract要約: スキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案する。 SkipcrossNetsは、特定の融合エポックに縛られることなく、LiDARポイントクラウドとカメライメージを適応的に結合する。スキップクロス融合の利点は、KITTIとA2D2データセットに適用することで実証された。
参考スコア（独自算出の注目度）: 24.57717266476866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal fusion is increasingly being used for autonomous driving tasks, as images from different modalities provide unique information for feature extraction. However, the existing two-stream networks are only fused at a specific network layer, which requires a lot of manual attempts to set up. As the CNN goes deeper, the two modal features become more and more advanced and abstract, and the fusion occurs at the feature level with a large gap, which can easily hurt the performance. In this study, we propose a novel fusion architecture called skip-cross networks (SkipcrossNets), which combines adaptively LiDAR point clouds and camera images without being bound to a certain fusion epoch. Specifically, skip-cross connects each layer to each layer in a feed-forward manner, and for each layer, the feature maps of all previous layers are used as input and its own feature maps are used as input to all subsequent layers for the other modality, enhancing feature propagation and multi-modal features fusion. This strategy facilitates selection of the most similar feature layers from two data pipelines, providing a complementary effect for sparse point cloud features during fusion processes. The network is also divided into several blocks to reduce the complexity of feature fusion and the number of model parameters. The advantages of skip-cross fusion were demonstrated through application to the KITTI and A2D2 datasets, achieving a MaxF score of 96.85% on KITTI and an F1 score of 84.84% on A2D2. The model parameters required only 2.33 MB of memory at a speed of 68.24 FPS, which could be viable for mobile terminals and embedded devices.
Abstract（参考訳）: 様々なモダリティの画像が特徴抽出にユニークな情報を提供するため、多モード融合が自律運転タスクにますます利用されている。しかし、既存の2ストリームネットワークは特定のネットワーク層でのみ融合しており、セットアップには多くの手動テストが必要になる。 CNNが深まるにつれて、2つのモーダル機能はより高度で抽象的になり、融合は大きなギャップを持つ特徴レベルで発生し、パフォーマンスを損なう可能性がある。本研究では,特定の融合エポックに縛られることなく,適応的にLiDAR点雲とカメラ画像を組み合わせる,スキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案する。具体的には、スキップクロスは、各層をフィードフォワード方式で各層に接続し、各層について、前層の全ての特徴マップを入力として、それ自身の特徴マップを、他のモダリティのための全ての後続層への入力として使用し、特徴伝播とマルチモーダル特徴融合を増強する。この戦略は、2つのデータパイプラインから最も類似した機能レイヤの選択を容易にする。ネットワークはまた、特徴融合の複雑さとモデルパラメータの数を減らすために、いくつかのブロックに分割されている。スキップクロス融合の利点は、KITTIとA2D2データセットに適用することで示され、KITTIでは96.85%、A2D2では84.84%のマックスFスコアを達成した。モデルパラメータは、68.24 FPSの速度で2.33MBのメモリしか必要とせず、モバイル端末や組み込みデバイスで実行可能であった。

関連論文リスト

ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification [5.863175733097434]
特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
論文参考訳（メタデータ） (2024-12-03T00:03:33Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。 Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2023-10-31T09:20:59Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。 2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文参考訳（メタデータ） (2022-09-15T16:13:19Z)
SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文参考訳（メタデータ） (2022-07-10T08:25:47Z)
Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文参考訳（メタデータ） (2022-03-30T13:00:27Z)
Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。 2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-18T14:14:22Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。それぞれの結果により,それぞれの最先端性能が向上した。
論文参考訳（メタデータ） (2021-05-26T17:50:36Z)
FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。 fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文参考訳（メタデータ） (2021-03-01T04:08:28Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。