論文の概要: Cross-Level Sensor Fusion with Object Lists via Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.12884v1
- Date: Sun, 14 Dec 2025 23:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.481487
- Title: Cross-Level Sensor Fusion with Object Lists via Transformer for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのトランスを用いたオブジェクトリストを用いたクロスレベルセンサフュージョン
- Authors: Xiangzhong Liu, Jiajie Zhang, Hao Shen,
- Abstract要約: 本稿ではTransformerを用いたエンドツーエンドのクロスレベル融合の概念を提案する。
高度に抽象的なオブジェクトリスト情報と生のカメラ画像を統合し、3Dオブジェクト検出を行う。
提案手法は,nuScenesデータセット上でのビジョンベースベースラインよりも大幅に性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 14.166654261485354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In automotive sensor fusion systems, smart sensors and Vehicle-to-Everything (V2X) modules are commonly utilized. Sensor data from these systems are typically available only as processed object lists rather than raw sensor data from traditional sensors. Instead of processing other raw data separately and then fusing them at the object level, we propose an end-to-end cross-level fusion concept with Transformer, which integrates highly abstract object list information with raw camera images for 3D object detection. Object lists are fed into a Transformer as denoising queries and propagated together with learnable queries through the latter feature aggregation process. Additionally, a deformable Gaussian mask, derived from the positional and size dimensional priors from the object lists, is explicitly integrated into the Transformer decoder. This directs attention toward the target area of interest and accelerates model training convergence. Furthermore, as there is no public dataset containing object lists as a standalone modality, we propose an approach to generate pseudo object lists from ground-truth bounding boxes by simulating state noise and false positives and negatives. As the first work to conduct cross-level fusion, our approach shows substantial performance improvements over the vision-based baseline on the nuScenes dataset. It demonstrates its generalization capability over diverse noise levels of simulated object lists and real detectors.
- Abstract(参考訳): 自動車用センサー融合システムでは、スマートセンサとV2Xモジュールが一般的に使用されている。
これらのシステムからのセンサーデータは、通常、従来のセンサーからの生のセンサーデータではなく、処理対象リストとしてのみ利用可能である。
本稿では,他の生データを別々に処理し,オブジェクトレベルで融合させる代わりに,トランスフォーマーを用いたエンドツーエンドの融合の概念を提案する。
オブジェクトリストは問合せクエリとしてTransformerに入力され、後者の機能集約プロセスを通じて学習可能な問合せと一緒に伝搬される。
さらに、オブジェクトリストから位置と大きさの次元の先行から派生した変形可能なガウスマスクが、明示的にTransformerデコーダに統合される。
これにより、対象とする関心領域に注意が向けられ、モデルのトレーニング収束が加速される。
さらに、オブジェクトリストを単独のモダリティとして含む公開データセットが存在しないため、状態ノイズと偽陽性と負陰性をシミュレートすることにより、地中境界ボックスから擬似オブジェクトリストを生成する手法を提案する。
クロスレベルフュージョンの最初の取り組みとして、我々のアプローチは、nuScenesデータセット上のビジョンベースのベースラインよりも大幅にパフォーマンスが向上したことを示す。
シミュレーション対象リストと実検出器の様々なノイズレベルに対する一般化能力を示す。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - Multimodal Object Query Initialization for 3D Object Detection [12.949272058147656]
LiDARとカメラセンサーの両方の機能を利用する3Dオブジェクト検出モデルは、大規模な自動運転ベンチマークでトップパフォーマーである。
トランスは、このタスクに使用される一般的なネットワークアーキテクチャであり、いわゆるオブジェクトクエリが候補オブジェクトとして機能する。
変換器を用いた3次元オブジェクト検出モデルのためのオブジェクトクエリのための,効率的でモジュール的でマルチモーダルなソリューションであるEfficientQ3Mを提案する。
論文 参考訳(メタデータ) (2023-10-16T12:42:44Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。