Fugu-MT 論文翻訳(概要): DeepInteraction: 3D Object Detection via Modality Interaction

論文の概要: DeepInteraction: 3D Object Detection via Modality Interaction

arxiv url: http://arxiv.org/abs/2208.11112v1
Date: Tue, 23 Aug 2022 17:52:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-24 13:31:38.330173
Title: DeepInteraction: 3D Object Detection via Modality Interaction
Title（参考訳）: Deep Interaction: モダリティインタラクションによる3Dオブジェクト検出
Authors: Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang
Abstract要約: トップパフォーマンスな3Dオブジェクト検出器のための新しいモダリティインタラクション戦略を導入する。本手法は,高度に競争力のあるnuScenesオブジェクト検出リーダーボードにおいて,第1位にランクされている。
参考スコア（独自算出の注目度）: 37.85057350887215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
Abstract（参考訳）: 既存の高性能な3Dオブジェクト検出器は通常、マルチモーダル融合戦略に依存している。しかし、この設計はモダリティ特有の有用な情報を見落とし、最終的にモデルの性能を損なうため、基本的に制限されている。この制限に対処するため,本研究では,個々のモダリティ表現を学習し,維持し,オブジェクト検出中にそれらの特徴を活用できるようにする新しいモダリティインタラクション戦略を提案する。提案手法を実現するために,マルチモーダルな表現的相互作用エンコーダとマルチモーダルな予測的相互作用デコーダを特徴とするDeepInteractionアーキテクチャを設計する。大規模なnuScenesデータセットの実験では,提案手法がすべての先行芸術を大きなマージンで超えることが示されている。本手法は,高い競合性を有するnuscenes object detection leaderboardにおいて,第1位にランク付けされる。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。同時に1つのステージで検出と相互作用の推論を行う。我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文参考訳（メタデータ） (2024-04-18T05:06:12Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion [45.45231015502287]
本稿では,大規模な受容場と効果的な特徴融合を統合されたフレームワークに統合する,新しい深層学習型COD手法を提案する。提案手法は,大規模な受容場からのリッチなコンテキスト情報を集約する,効果的な融合戦略により,カモフラージュされた物体を検出する。
論文参考訳（メタデータ） (2021-01-14T16:06:08Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)
A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-04-18T15:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。