論文の概要: Bridged Transformer for Vision and Point Cloud 3D Object Detection
- arxiv url: http://arxiv.org/abs/2210.01391v1
- Date: Tue, 4 Oct 2022 05:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:24:34.845579
- Title: Bridged Transformer for Vision and Point Cloud 3D Object Detection
- Title(参考訳): 視覚・ポイントクラウド3次元物体検出用ブリッジ変圧器
- Authors: Yikai Wang, TengQi Ye, Lele Cao, Wenbing Huang, Fuchun Sun, Fengxiang
He, Dacheng Tao
- Abstract要約: Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
- 参考スコア(独自算出の注目度): 92.86856146086316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is a crucial research topic in computer vision, which
usually uses 3D point clouds as input in conventional setups. Recently, there
is a trend of leveraging multiple sources of input data, such as complementing
the 3D point cloud with 2D images that often have richer color and fewer
noises. However, due to the heterogeneous geometrics of the 2D and 3D
representations, it prevents us from applying off-the-shelf neural networks to
achieve multimodal fusion. To that end, we propose Bridged Transformer (BrT),
an end-to-end architecture for 3D object detection. BrT is simple and
effective, which learns to identify 3D and 2D object bounding boxes from both
points and image patches. A key element of BrT lies in the utilization of
object queries for bridging 3D and 2D spaces, which unifies different sources
of data representations in Transformer. We adopt a form of feature aggregation
realized by point-to-patch projections which further strengthen the
correlations between images and points. Moreover, BrT works seamlessly for
fusing the point cloud with multi-view images. We experimentally show that BrT
surpasses state-of-the-art methods on SUN RGB-D and ScanNetV2 datasets.
- Abstract(参考訳): 3dオブジェクト検出はコンピュータビジョンにおいて重要な研究テーマであり、通常3dポイントクラウドを従来の設定で入力として使用する。
近年,色が豊富でノイズが少ない2次元画像で3次元点雲を補完するなど,複数の入力データソースを活用する傾向にある。
しかし、2Dと3Dの表現の不均一な幾何学的特徴により、既成のニューラルネットワークを適用してマルチモーダル融合を達成できない。
そこで我々は,3次元物体検出のためのエンドツーエンドアーキテクチャである bridged transformer (brt) を提案する。
BrTはシンプルで効果的で、3Dと2Dのオブジェクト境界ボックスをポイントとイメージパッチの両方から識別する。
BrTの重要な要素は、Transformerでデータ表現の異なるソースを統一する3D空間と2D空間をブリッジするためのオブジェクトクエリの利用である。
我々は,画像とポイントの相関をさらに強化するポイント・ツー・パッチ・プロジェクションによって実現される特徴集約方式を採用する。
さらに、BrTはマルチビューイメージでポイントクラウドを融合するためにシームレスに機能する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
関連論文リスト
- PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images [11.152821406076486]
CN-RMAは多視点画像から3次元屋内物体を検出する新しい手法である。
多視点画像からの3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T03:59:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。