論文の概要: 3DTMDet: A Dual-Path Synergy Network of Transformer and SSM for 3D Object Detection in Point Clouds
- arxiv url: http://arxiv.org/abs/2605.15546v1
- Date: Fri, 15 May 2026 02:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.149572
- Title: 3DTMDet: A Dual-Path Synergy Network of Transformer and SSM for 3D Object Detection in Point Clouds
- Title(参考訳): 3DTMDet:点雲における3次元物体検出のための変圧器とSSMのデュアルパスシナジーネットワーク
- Authors: Bingwen Qiu, Yuan Liu, Junqi Bai, Tong Jiang, Ben Liang, Fangzhou Chen, Xiubao Sui, Qian Chen,
- Abstract要約: 3DTMDetは状態空間モデル(Mamba)とトランスフォーマーを組み合わせた新しい検出ネットワークである。
本研究では,SSM-Attention-SSMパイプラインを用いた3D Hybrid Mamba Transformer (3DHMT)ブロックを提案する。
KITTIとONCEのデータセットで行った実験では、3DTMDetは最先端の検出器よりも優れていた。
- 参考スコア(独自算出の注目度): 15.3066954300581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in point cloud object detection lies in the conflict between the extreme sparsity of distant points and the need for remote context understanding. The existing methods typically use 1D serialization to expand the receptive field, which inevitably discards already scarce local geometric details and reduces detection of distant and small objects. To address this issue, we propose 3DTMDet, a novel detection network that synergistically combines state space models (Mamba) with Transformers. The core idea is to utilize SSM's linear complexity and advantages in long sequence modeling to effectively capture global interactions between sparse and distant points, while using Transformer modules with local attention to encode fine-grained geometric structures in local point sets, preserving accurate shape information. We propose the 3D Hybrid Mamba Transformer (3DHMT) block, which uses an SSM-Attention-SSM pipeline to balance global context understanding and local detail preservation, effectively alleviating the tension between receptive field enlargement and geometric preservation in remote detection. In addition, we introduced a voxel generation block inspired by LiDAR physics, which diffuses features along the sensor observation direction to reconstruct the complete object structure of occlusion and distant areas. Extensive experiments conducted on the KITTI and ONCE datasets have shown that 3DTMDet outperforms state-of-the-art detectors. The code is available at https://github.com/QiuBingwen/3DTMDet.
- Abstract(参考訳): ポイント・クラウド・オブジェクトの検出における根本的な課題は、遠方点の極端に広い範囲と、リモート・コンテキストの理解の必要性の間の対立にある。
既存の手法は1Dシリアライゼーションを使用して受容界を広げるが、それは必然的に局所的な幾何学的詳細が不足しており、遠方や小さな物体の検出を減らす。
本稿では,状態空間モデル(Mamba)とトランスフォーマーを相乗的に組み合わせた3DTMDetを提案する。
中心となる考え方は、SSMの線形複雑性と長周期モデリングの利点を利用してスパースと遠点のグローバルな相互作用を効果的に捉えながら、局所的な注意を持つトランスフォーマーモジュールを用いて局所的な点集合内の微細な幾何学構造を符号化し、正確な形状情報を保存することである。
本研究では,SSM-Attention-SSMパイプラインを用いた3D Hybrid Mamba Transformer (3DHMT)ブロックを提案する。
さらに,LiDAR物理にインスパイアされたボクセル生成ブロックを導入し,センサ観測方向に沿って特徴を拡散させ,オクルージョンと遠方領域の完全なオブジェクト構造を再構築した。
KITTIとONCEのデータセットで実施された大規模な実験では、3DTMDetは最先端の検出器よりも優れていた。
コードはhttps://github.com/QiuBingwen/3DTMDetで入手できる。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - State Space Model Meets Transformer: A New Paradigm for 3D Object Detection [33.49952392298874]
インタラクティブなSTate空間モデル(DEST)を用いた新しい3次元オブジェクト検出パラダイムを提案する。
対話型SSMでは,3次元屋内検出タスクにおいて,システム状態が効率的にクエリとして機能する新しい状態依存型SSMパラメータ化法を設計する。
ScanNet V2 と SUN RGB-D データセットの AP50 で GroupFree のベースラインを改善する。
論文 参考訳(メタデータ) (2025-03-18T17:58:03Z) - Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [39.60518561679198]
我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
実験により、TPCNetはTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T11:48:27Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。