論文の概要: Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception
- arxiv url: http://arxiv.org/abs/2512.23635v1
- Date: Mon, 29 Dec 2025 17:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.602436
- Title: Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception
- Title(参考訳): エンド・ツー・エンド3次元知覚の時空間アライメント再考
- Authors: Xiaoyu Li, Peidong Li, Xian Wu, Long Shi, Dedong Liu, Yitao Wu, Jiajia Fu, Dixiao Cui, Lijun Zhao, Lining Sun,
- Abstract要約: 我々は,各オブジェクトが最適なアライメント提案を適応的にデコードできる構造的時間的アライメントモジュールであるHATを提案する。
nuScenesでは、HATは多種多様なベースラインにわたる3D時間検出器とトラッカーを一貫して改善している。
対象中心のE2E AD法では、HATは知覚精度(+1.3% mAP、+3.1% AMOTA)を高め、衝突率を32%削減する。
- 参考スコア(独自算出の注目度): 16.162722161042193
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatio-temporal alignment is crucial for temporal modeling of end-to-end (E2E) perception in autonomous driving (AD), providing valuable structural and textural prior information. Existing methods typically rely on the attention mechanism to align objects across frames, simplifying the motion model with a unified explicit physical model (constant velocity, etc.). These approaches prefer semantic features for implicit alignment, challenging the importance of explicit motion modeling in the traditional perception paradigm. However, variations in motion states and object features across categories and frames render this alignment suboptimal. To address this, we propose HAT, a spatio-temporal alignment module that allows each object to adaptively decode the optimal alignment proposal from multiple hypotheses without direct supervision. Specifically, HAT first utilizes multiple explicit motion models to generate spatial anchors and motion-aware feature proposals for historical instances. It then performs multi-hypothesis decoding by incorporating semantic and motion cues embedded in cached object queries, ultimately providing the optimal alignment proposal for the target frame. On nuScenes, HAT consistently improves 3D temporal detectors and trackers across diverse baselines. It achieves state-of-the-art tracking results with 46.0% AMOTA on the test set when paired with the DETR3D detector. In an object-centric E2E AD method, HAT enhances perception accuracy (+1.3% mAP, +3.1% AMOTA) and reduces the collision rate by 32%. When semantics are corrupted (nuScenes-C), the enhancement of motion modeling by HAT enables more robust perception and planning in the E2E AD.
- Abstract(参考訳): 時空間アライメントは、自律運転(AD)におけるエンド・ツー・エンド(E2E)知覚の時間的モデリングにおいて重要である。
既存の手法は一般に、オブジェクトをフレーム間で整列させるアテンション機構に依存しており、運動モデルを統一された物理的なモデル(定数速度など)で単純化する。
これらのアプローチは、従来の知覚パラダイムにおける明示的な動きモデリングの重要性に挑戦する、暗黙のアライメントのための意味的特徴を好む。
しかし、カテゴリーやフレームの移動状態や物体の特徴の変化は、このアライメントを最適にしている。
そこで我々は,各オブジェクトが直接監督することなく,複数の仮説から最適なアライメント提案を適応的に復号できる時空間アライメントモジュールHATを提案する。
具体的には、HATはまず複数の明示的な動きモデルを使用して、歴史的インスタンスのための空間アンカーと動き認識機能の提案を生成する。
次に、キャッシュされたオブジェクトクエリに埋め込まれたセマンティックおよびモーションキューを組み込んで、最終的にはターゲットフレームに最適なアライメント提案を提供する。
nuScenesでは、HATは多種多様なベースラインにわたる3D時間検出器とトラッカーを一貫して改善している。
DETR3D検出器と組み合わせると、テストセット上で46.0%のAMOTAで最先端の追跡結果が得られる。
物体中心のE2E AD法では、HATは知覚精度(+1.3% mAP, +3.1% AMOTA)を高め、衝突速度を32%削減する。
意味論が損なわれる(nuScenes-C)と、HATによる動きモデリングの強化により、E2E ADにおけるより堅牢な認識と計画が可能になる。
関連論文リスト
- Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文 参考訳(メタデータ) (2025-09-01T03:34:57Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。
高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T13:14:13Z) - Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。