論文の概要: Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2105.12713v1
- Date: Wed, 26 May 2021 17:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:25:33.430325
- Title: Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving
- Title(参考訳): 自律運転のための空間的・文脈的深層ネットワークベースマルチモーダル歩行者検出
- Authors: Kinjal Dasgupta, Arindam Das, Sudip Das, Ujjwal Bhattacharya and
Senthil Yogamani
- Abstract要約: 本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
- 参考スコア(独自算出の注目度): 1.2599533416395765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian Detection is the most critical module of an Autonomous Driving
system. Although a camera is commonly used for this purpose, its quality
degrades severely in low-light night time driving scenarios. On the other hand,
the quality of a thermal camera image remains unaffected in similar conditions.
This paper proposes an end-to-end multimodal fusion model for pedestrian
detection using RGB and thermal images. Its novel spatio-contextual deep
network architecture is capable of exploiting the multimodal input efficiently.
It consists of two distinct deformable ResNeXt-50 encoders for feature
extraction from the two modalities. Fusion of these two encoded features takes
place inside a multimodal feature embedding module (MuFEm) consisting of
several groups of a pair of Graph Attention Network and a feature fusion unit.
The output of the last feature fusion unit of MuFEm is subsequently passed to
two CRFs for their spatial refinement. Further enhancement of the features is
achieved by applying channel-wise attention and extraction of contextual
information with the help of four RNNs traversing in four different directions.
Finally, these feature maps are used by a single-stage decoder to generate the
bounding box of each pedestrian and the score map. We have performed extensive
experiments of the proposed framework on three publicly available multimodal
pedestrian detection benchmark datasets, namely KAIST, CVC-14, and UTokyo. The
results on each of them improved the respective state-of-the-art performance. A
short video giving an overview of this work along with its qualitative results
can be seen at https://youtu.be/FDJdSifuuCs.
- Abstract(参考訳): 歩行者検出は自律運転システムの最も重要なモジュールである。
この用途にはカメラが一般的に用いられるが、低照度夜間の運転では品質が著しく劣化する。
一方、熱カメラ画像の品質は、同様の条件下では影響を受けない。
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しい空間的深層ネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
異なる2つの変形可能なResNeXt-50エンコーダで構成され、2つのモードから特徴抽出を行う。
これら2つのエンコードされた機能の融合は、グラフ注意ネットワークと機能融合ユニットの複数のグループで構成されるマルチモーダル機能埋め込みモジュール(MuFEm)内で行われる。
MuFEmの最後の特徴融合ユニットの出力は、空間的精錬のために2つのCRFに渡される。
4つの異なる方向を横断する4つのrnnの助けを借りて、チャネルごとに注意を払い、文脈情報を抽出することにより、さらなる機能強化を実現する。
最後に、これらの特徴マップを1段デコーダで使用して、各歩行者のバウンディングボックスとスコアマップを生成する。
我々は,kaist,cvc-14,utokyoの3つのマルチモーダル歩行者検出ベンチマークデータセットについて,提案フレームワークの広範な実験を行った。
それぞれの結果により,それぞれの最先端性能が向上した。
この作業の概要と質的な結果を示す短いビデオはhttps://youtu.be/FDJdSifuuCsで見ることができる。
関連論文リスト
- A Generalized Multi-Modal Fusion Detection Framework [7.951044844083936]
LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
点雲の広さのため、特定のシナリオでは正確で信頼性の高い検出ができない。
マルチモーダル機能を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:38:07Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution
Remote Sensing Images [19.07341794770722]
本稿では,Dual-Decoder-U-Net(DDU-Net)と呼ばれる深層ニューラルネットワークモデルを提案する。
提案したモデルは、最先端のDenseUNet、DeepLabv3+、D-LinkNetの6.5%、MIoUの平均インターセクションでは3.3%、F1スコアでは4%、4.8%、それぞれ2.1%を上回っている。
論文 参考訳(メタデータ) (2022-01-18T05:27:49Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。