論文の概要: DeepInteraction: 3D Object Detection via Modality Interaction
- arxiv url: http://arxiv.org/abs/2208.11112v1
- Date: Tue, 23 Aug 2022 17:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:31:38.330173
- Title: DeepInteraction: 3D Object Detection via Modality Interaction
- Title(参考訳): Deep Interaction: モダリティインタラクションによる3Dオブジェクト検出
- Authors: Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang
- Abstract要約: トップパフォーマンスな3Dオブジェクト検出器のための新しいモダリティインタラクション戦略を導入する。
本手法は,高度に競争力のあるnuScenesオブジェクト検出リーダーボードにおいて,第1位にランクされている。
- 参考スコア(独自算出の注目度): 37.85057350887215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing top-performance 3D object detectors typically rely on the
multi-modal fusion strategy. This design is however fundamentally restricted
due to overlooking the modality-specific useful information and finally
hampering the model performance. To address this limitation, in this work we
introduce a novel modality interaction strategy where individual per-modality
representations are learned and maintained throughout for enabling their unique
characteristics to be exploited during object detection. To realize this
proposed strategy, we design a DeepInteraction architecture characterized by a
multi-modal representational interaction encoder and a multi-modal predictive
interaction decoder. Experiments on the large-scale nuScenes dataset show that
our proposed method surpasses all prior arts often by a large margin.
Crucially, our method is ranked at the first position at the highly competitive
nuScenes object detection leaderboard.
- Abstract(参考訳): 既存の高性能な3Dオブジェクト検出器は通常、マルチモーダル融合戦略に依存している。
しかし、この設計はモダリティ特有の有用な情報を見落とし、最終的にモデルの性能を損なうため、基本的に制限されている。
この制限に対処するため,本研究では,個々のモダリティ表現を学習し,維持し,オブジェクト検出中にそれらの特徴を活用できるようにする新しいモダリティインタラクション戦略を提案する。
提案手法を実現するために,マルチモーダルな表現的相互作用エンコーダとマルチモーダルな予測的相互作用デコーダを特徴とするDeepInteractionアーキテクチャを設計する。
大規模なnuScenesデータセットの実験では,提案手法がすべての先行芸術を大きなマージンで超えることが示されている。
本手法は,高い競合性を有するnuscenes object detection leaderboardにおいて,第1位にランク付けされる。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Towards Discriminative Representation: Multi-view Trajectory Contrastive
Learning for Online Multi-object Tracking [1.0474108328884806]
本稿では,多視点トラジェクティブ・コントラスト学習という戦略を提案し,各トラジェクトリを中心ベクトルとして表現する。
推論段階では、軌道表現の質をさらに高めるために類似性誘導型特徴融合戦略を開発する。
我々の手法は先行トラッカーを超え、新しい最先端のパフォーマンスを確立した。
論文 参考訳(メタデータ) (2022-03-27T04:53:31Z) - Towards Accurate Camouflaged Object Detection with Mixture Convolution
and Interactive Fusion [11.778147167153612]
大規模な受容領域と効果的な機能融合を統合フレームワークに統合した,新しいディープラーニングベースのCODアプローチを提案する。
本手法は, 広い受容領域から豊富なコンテキスト情報を集約する効果的な融合戦略により, 迷彩物体を検出する。
論文 参考訳(メタデータ) (2021-01-14T16:06:08Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。