論文の概要: HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection
- arxiv url: http://arxiv.org/abs/2206.15157v1
- Date: Thu, 30 Jun 2022 09:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 00:56:21.377097
- Title: HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection
- Title(参考訳): hrfuser: 2次元物体検出のためのマルチレゾリューションセンサ融合アーキテクチャ
- Authors: Tim Broedermann (1), Christos Sakaridis (1), Dengxin Dai (2) and Luc
Van Gool (1 and 3) ((1) ETH Zurich, (2) MPI for Informatics, (3) KU Leuven)
- Abstract要約: 2Dオブジェクト検出は、2D画像領域で定義された基本的な高レベルなタスクである。
本稿では,任意の入力モードに対して直接スケールするマルチレゾリューションセンサ融合アーキテクチャであるHRFuserを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Besides standard cameras, autonomous vehicles typically include multiple
additional sensors, such as lidars and radars, which help acquire richer
information for perceiving the content of the driving scene. While several
recent works focus on fusing certain pairs of sensors - such as camera and
lidar or camera and radar - by using architectural components specific to the
examined setting, a generic and modular sensor fusion architecture is missing
from the literature. In this work, we focus on 2D object detection, a
fundamental high-level task which is defined on the 2D image domain, and
propose HRFuser, a multi-resolution sensor fusion architecture that scales
straightforwardly to an arbitrary number of input modalities. The design of
HRFuser is based on state-of-the-art high-resolution networks for image-only
dense prediction and incorporates a novel multi-window cross-attention block as
the means to perform fusion of multiple modalities at multiple resolutions.
Even though cameras alone provide very informative features for 2D detection,
we demonstrate via extensive experiments on the nuScenes and Seeing Through Fog
datasets that our model effectively leverages complementary features from
additional modalities, substantially improving upon camera-only performance and
consistently outperforming state-of-the-art fusion methods for 2D detection
both in normal and adverse conditions. The source code will be made publicly
available.
- Abstract(参考訳): 通常のカメラに加えて、自動運転車にはライダーやレーダーなどの複数のセンサーが含まれており、運転シーンの内容を認識するためによりリッチな情報を取得するのに役立つ。
最近のいくつかの研究は、カメラ、ライダー、カメラ、レーダーなどの特定のセンサーのペアを、検査された設定に特有のアーキテクチャコンポーネントを使用することに焦点を当てているが、汎用的でモジュラーなセンサー融合アーキテクチャは文献から欠落している。
本研究では,2d画像領域で定義された基本高レベルタスクである2dオブジェクト検出に着目し,任意の数の入力モダリティに対して直接スケールするマルチレゾリューションセンサ融合アーキテクチャであるhrfuserを提案する。
hrfuserの設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモードの融合を行う手段として、新しいマルチウィンドウクロスアテンションブロックが組み込まれている。
カメラだけでは2D検出に非常に有意義な機能を提供しているが、nuScenes と Seeing Through Fog データセットの広範な実験を通じて、我々のモデルは、追加のモダリティから補完的な特徴を効果的に活用し、カメラのみの性能を大幅に改善し、正常および悪条件の両方において2D検出のための最先端の融合法を一貫して上回ることを示した。
ソースコードは一般公開される予定だ。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。