論文の概要: Li-ViP3D++: Query-Gated Deformable Camera-LiDAR Fusion for End-to-End Perception and Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2601.20720v1
- Date: Wed, 28 Jan 2026 15:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.0074
- Title: Li-ViP3D++: Query-Gated Deformable Camera-LiDAR Fusion for End-to-End Perception and Trajectory Prediction
- Title(参考訳): Li-ViP3D++: 終端知覚と軌道予測のためのクエリゲート型デフォルマブルカメラ-LiDAR融合
- Authors: Matej Halinkovic, Nina Masarykova, Alexey Vinel, Marek Galinski,
- Abstract要約: Li-ViP3D++はクエリベースである。
エンドツーエンドのアテンションフレームワーク。
生のセンサーデータからの知覚と軌道予測。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end perception and trajectory prediction from raw sensor data is one of the key capabilities for autonomous driving. Modular pipelines restrict information flow and can amplify upstream errors. Recent query-based, fully differentiable perception-and-prediction (PnP) models mitigate these issues, yet the complementarity of cameras and LiDAR in the query-space has not been sufficiently explored. Models often rely on fusion schemes that introduce heuristic alignment and discrete selection steps which prevent full utilization of available information and can introduce unwanted bias. We propose Li-ViP3D++, a query-based multimodal PnP framework that introduces Query-Gated Deformable Fusion (QGDF) to integrate multi-view RGB and LiDAR in query space. QGDF (i) aggregates image evidence via masked attention across cameras and feature levels, (ii) extracts LiDAR context through fully differentiable BEV sampling with learned per-query offsets, and (iii) applies query-conditioned gating to adaptively weight visual and geometric cues per agent. The resulting architecture jointly optimizes detection, tracking, and multi-hypothesis trajectory forecasting in a single end-to-end model. On nuScenes, Li-ViP3D++ improves end-to-end behavior and detection quality, achieving higher EPA (0.335) and mAP (0.502) while substantially reducing false positives (FP ratio 0.147), and it is faster than the prior Li-ViP3D variant (139.82 ms vs. 145.91 ms). These results indicate that query-space, fully differentiable camera-LiDAR fusion can increase robustness of end-to-end PnP without sacrificing deployability.
- Abstract(参考訳): 生センサデータからのエンドツーエンドの認識と軌道予測は、自動運転の鍵となる能力の1つである。
モジュールパイプラインは情報フローを制限し、上流のエラーを増幅する。
最近のPnPモデルはこれらの問題を緩和するが、クエリ空間におけるカメラとLiDARの相補性は十分に検討されていない。
モデルはしばしば、ヒューリスティックなアライメントと、利用可能な情報の完全な利用を防ぎ、望ましくないバイアスをもたらすような個別の選択ステップを導入する融合スキームに依存している。
我々はクエリベースのマルチモーダルPnPフレームワークであるLi-ViP3D++を提案し、クエリ空間にマルチビューRGBとLiDARを統合するためにQuery-Gated Deformable Fusion (QGDF)を導入した。
QGDF
i) カメラと特徴レベルにまたがって、マスキングされた注意を通して画像証拠を集計する。
(II)学習したクエリごとのオフセットによる完全微分可能なBEVサンプリングを通してLiDARコンテキストを抽出し、
3) エージェントごとの視覚的および幾何学的手がかりを適応的に重み付けするために、クエリ条件付きゲーティングを適用する。
結果として得られたアーキテクチャは、単一のエンドツーエンドモデルにおける検出、追跡、およびマルチヒポセシス軌道予測を共同で最適化する。
nuScenesでは、Li-ViP3D++はエンドツーエンドの振る舞いと検出品質を改善し、EPA(0.335)とmAP(0.502)を向上し、偽陽性(FP比0.147)を大幅に低減し、以前のLi-ViP3D変種(139.82 ms vs. 145.91 ms)よりも高速である。
これらの結果から,クエリ空間と完全微分可能なカメラ-LiDAR融合は,デプロイ性を犠牲にすることなく,エンドツーエンドPnPの堅牢性を向上できることが示された。
関連論文リスト
- LAMP: Data-Efficient Linear Affine Weight-Space Models for Parameter-Controlled 3D Shape Generation and Extrapolation [4.182541493191528]
制御可能かつ解釈可能な3D生成のためのフレームワークであるLAMPを紹介する。
LAMPをDrivAerNet++とBlendedNetの2つの3次元パラメトリック幾何ベンチマークで評価した。
以上の結果から,LAMPは制御可能で,データ効率が高く,安全な3D生成が可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-26T02:12:20Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving [56.198745862311824]
スパースパーセプションモデル(SPM)のための新しいクエリベーススプラッティング事前トレーニングであるSQSを紹介する。
SQSは、事前トレーニング中にスパースクエリから3Dガウス表現を予測する。
自律運転ベンチマークの実験では、SQSは複数のクエリベースの3D知覚タスクでかなりのパフォーマンス向上を達成している。
論文 参考訳(メタデータ) (2025-09-20T09:25:19Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion [2.503388496100123]
車両物体検出は、LiDARとカメラデータの両方から恩恵を受ける。
本稿では,各予測境界ボックスが許容可能であるかどうかを検証するモデル適応型遅延融合法VaLIDを提案する。
提案手法はモデル適応型であり,汎用カメラ検出器を用いた場合においても最先端の競争性能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:27:10Z) - Let's Roll: Synthetic Dataset Analysis for Pedestrian Detection Across
Different Shutter Types [7.0441427250832644]
本稿では,機械学習(ML)オブジェクト検出モデルに異なるシャッター機構が与える影響について検討する。
特に、合成合成されたGSとRSのデータセットを用いて、主流検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-09-15T04:07:42Z) - PTA-Det: Point Transformer Associating Point cloud and Image for 3D
Object Detection [3.691671505269693]
多くのマルチモーダル検出法は、LiDARのみの手法よりもさらに悪い性能を発揮する。
Pseudo Point Cloud Generation Networkは、画像情報を疑似ポイントで変換するために提案されている。
画像からのLiDAR点と擬似点の特徴は、統一された点ベース表現の下で深く融合することができる。
論文 参考訳(メタデータ) (2023-01-18T04:35:49Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。