論文の概要: DeepInteraction: 3D Object Detection via Modality Interaction
- arxiv url: http://arxiv.org/abs/2208.11112v1
- Date: Tue, 23 Aug 2022 17:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:31:38.330173
- Title: DeepInteraction: 3D Object Detection via Modality Interaction
- Title(参考訳): Deep Interaction: モダリティインタラクションによる3Dオブジェクト検出
- Authors: Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang
- Abstract要約: トップパフォーマンスな3Dオブジェクト検出器のための新しいモダリティインタラクション戦略を導入する。
本手法は,高度に競争力のあるnuScenesオブジェクト検出リーダーボードにおいて,第1位にランクされている。
- 参考スコア(独自算出の注目度): 37.85057350887215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing top-performance 3D object detectors typically rely on the
multi-modal fusion strategy. This design is however fundamentally restricted
due to overlooking the modality-specific useful information and finally
hampering the model performance. To address this limitation, in this work we
introduce a novel modality interaction strategy where individual per-modality
representations are learned and maintained throughout for enabling their unique
characteristics to be exploited during object detection. To realize this
proposed strategy, we design a DeepInteraction architecture characterized by a
multi-modal representational interaction encoder and a multi-modal predictive
interaction decoder. Experiments on the large-scale nuScenes dataset show that
our proposed method surpasses all prior arts often by a large margin.
Crucially, our method is ranked at the first position at the highly competitive
nuScenes object detection leaderboard.
- Abstract(参考訳): 既存の高性能な3Dオブジェクト検出器は通常、マルチモーダル融合戦略に依存している。
しかし、この設計はモダリティ特有の有用な情報を見落とし、最終的にモデルの性能を損なうため、基本的に制限されている。
この制限に対処するため,本研究では,個々のモダリティ表現を学習し,維持し,オブジェクト検出中にそれらの特徴を活用できるようにする新しいモダリティインタラクション戦略を提案する。
提案手法を実現するために,マルチモーダルな表現的相互作用エンコーダとマルチモーダルな予測的相互作用デコーダを特徴とするDeepInteractionアーキテクチャを設計する。
大規模なnuScenesデータセットの実験では,提案手法がすべての先行芸術を大きなマージンで超えることが示されている。
本手法は,高い競合性を有するnuscenes object detection leaderboardにおいて,第1位にランク付けされる。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion [45.45231015502287]
本稿では,大規模な受容場と効果的な特徴融合を統合されたフレームワークに統合する,新しい深層学習型COD手法を提案する。
提案手法は,大規模な受容場からのリッチなコンテキスト情報を集約する,効果的な融合戦略により,カモフラージュされた物体を検出する。
論文 参考訳(メタデータ) (2021-01-14T16:06:08Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。