論文の概要: IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2403.15241v1
- Date: Fri, 22 Mar 2024 14:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.195092
- Title: IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection
- Title(参考訳): IS-Fusion:マルチモーダル3次元物体検出のためのインスタンスシーン協調融合
- Authors: Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang,
- Abstract要約: 我々は,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。
インスタンスレベルのコンテキスト情報とシーンレベルのコンテキスト情報をキャプチャする。
Is-Fusionは基本的に、BEVシーンレベルの融合のみに焦点を当てた既存のアプローチとは異なる。
- 参考スコア(独自算出の注目度): 130.394884412296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's eye view (BEV) representation has emerged as a dominant solution for describing 3D space in autonomous driving scenarios. However, objects in the BEV representation typically exhibit small sizes, and the associated point cloud context is inherently sparse, which leads to great challenges for reliable 3D perception. In this paper, we propose IS-Fusion, an innovative multimodal fusion framework that jointly captures the Instance- and Scene-level contextual information. IS-Fusion essentially differs from existing approaches that only focus on the BEV scene-level fusion by explicitly incorporating instance-level multimodal information, thus facilitating the instance-centric tasks like 3D object detection. It comprises a Hierarchical Scene Fusion (HSF) module and an Instance-Guided Fusion (IGF) module. HSF applies Point-to-Grid and Grid-to-Region transformers to capture the multimodal scene context at different granularities. IGF mines instance candidates, explores their relationships, and aggregates the local multimodal context for each instance. These instances then serve as guidance to enhance the scene feature and yield an instance-aware BEV representation. On the challenging nuScenes benchmark, IS-Fusion outperforms all the published multimodal works to date. Code is available at: https://github.com/yinjunbo/IS-Fusion.
- Abstract(参考訳): Bird's Eye View (BEV)表現は、自律運転シナリオにおける3D空間を記述するための支配的なソリューションとして登場した。
しかし、BEV表現のオブジェクトは通常小さなサイズであり、関連する点のクラウドコンテキストは本質的に疎外であり、信頼性の高い3D知覚において大きな課題をもたらす。
本稿では,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。
IS-Fusionは、インスタンスレベルのマルチモーダル情報を明示的に組み込むことで、BEVシーンレベルの融合のみに焦点を当てる既存のアプローチと本質的に異なるため、3Dオブジェクト検出のようなインスタンス中心のタスクを容易にする。
Hierarchical Scene Fusion (HSF) モジュールと Instance-Guided Fusion (IGF) モジュールで構成される。
HSFは、様々な粒度でマルチモーダルシーンコンテキストをキャプチャするために、Point-to-GridおよびGrid-to-Region変換器を適用している。
IGFはインスタンス候補をマイニングし、それらの関係を調べ、各インスタンスのローカルなマルチモーダルコンテキストを集約する。
これらのインスタンスは、シーン機能を強化し、インスタンス対応のBEV表現を生成するためのガイダンスとして機能する。
難易度の高いnuScenesベンチマークでは、IS-Fusionは、これまで公開されたすべてのマルチモーダルワークを上回っている。
コードは、https://github.com/yinjunbo/IS-Fusion.comで入手できる。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection [84.09798649295038]
物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-04-27T17:17:39Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。