論文の概要: SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection
- arxiv url: http://arxiv.org/abs/2308.12863v1
- Date: Thu, 24 Aug 2023 15:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:38:49.729175
- Title: SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection
- Title(参考訳): SkipcrossNets: 道路検出のための適応的スキップクロスフュージョン
- Authors: Xinyu Zhang, Yan Gong, Zhiwei Li, Xin Gao, Dafeng Jin, Jun Li, and
Huaping Liu
- Abstract要約: スキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案する。
SkipcrossNetsは、特定の融合エポックに縛られることなく、LiDARポイントクラウドとカメライメージを適応的に結合する。
スキップクロス融合の利点は、KITTIとA2D2データセットに適用することで実証された。
- 参考スコア(独自算出の注目度): 24.57717266476866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal fusion is increasingly being used for autonomous driving tasks,
as images from different modalities provide unique information for feature
extraction. However, the existing two-stream networks are only fused at a
specific network layer, which requires a lot of manual attempts to set up. As
the CNN goes deeper, the two modal features become more and more advanced and
abstract, and the fusion occurs at the feature level with a large gap, which
can easily hurt the performance. In this study, we propose a novel fusion
architecture called skip-cross networks (SkipcrossNets), which combines
adaptively LiDAR point clouds and camera images without being bound to a
certain fusion epoch. Specifically, skip-cross connects each layer to each
layer in a feed-forward manner, and for each layer, the feature maps of all
previous layers are used as input and its own feature maps are used as input to
all subsequent layers for the other modality, enhancing feature propagation and
multi-modal features fusion. This strategy facilitates selection of the most
similar feature layers from two data pipelines, providing a complementary
effect for sparse point cloud features during fusion processes. The network is
also divided into several blocks to reduce the complexity of feature fusion and
the number of model parameters. The advantages of skip-cross fusion were
demonstrated through application to the KITTI and A2D2 datasets, achieving a
MaxF score of 96.85% on KITTI and an F1 score of 84.84% on A2D2. The model
parameters required only 2.33 MB of memory at a speed of 68.24 FPS, which could
be viable for mobile terminals and embedded devices.
- Abstract(参考訳): 様々なモダリティの画像が特徴抽出にユニークな情報を提供するため、多モード融合が自律運転タスクにますます利用されている。
しかし、既存の2ストリームネットワークは特定のネットワーク層でのみ融合しており、セットアップには多くの手動テストが必要になる。
CNNが深まるにつれて、2つのモーダル機能はより高度で抽象的になり、融合は大きなギャップを持つ特徴レベルで発生し、パフォーマンスを損なう可能性がある。
本研究では,特定の融合エポックに縛られることなく,適応的にLiDAR点雲とカメラ画像を組み合わせる,スキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案する。
具体的には、スキップクロスは、各層をフィードフォワード方式で各層に接続し、各層について、前層の全ての特徴マップを入力として、それ自身の特徴マップを、他のモダリティのための全ての後続層への入力として使用し、特徴伝播とマルチモーダル特徴融合を増強する。
この戦略は、2つのデータパイプラインから最も類似した機能レイヤの選択を容易にする。
ネットワークはまた、特徴融合の複雑さとモデルパラメータの数を減らすために、いくつかのブロックに分割されている。
スキップクロス融合の利点は、KITTIとA2D2データセットに適用することで示され、KITTIでは96.85%、A2D2では84.84%のマックスFスコアを達成した。
モデルパラメータは、68.24 FPSの速度で2.33MBのメモリしか必要とせず、モバイル端末や組み込みデバイスで実行可能であった。
関連論文リスト
- Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification [4.061135251278187]
マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。
MSDF-NetはDFblockを備えた多段構造で構成されている。
広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-03-29T09:27:53Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。