論文の概要: NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.06254v1
- Date: Fri, 06 Mar 2026 13:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.786847
- Title: NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving
- Title(参考訳): NOVA: 自律運転における3次元多物体追跡のための次世代オープンボキャブラリオートレグレス
- Authors: Kai Luo, Xu Wang, Rui Fan, Kailun Yang,
- Abstract要約: 未知のターゲットをまたいだ一般化は、オープンワールドの認識にとって重要である。
次ステップのOpen-Vabulary Autoregression (NOVA)は、3Dトラッキングを断片化された距離ベースマッチングから従来のセマンティックモデリングへシフトする。
- 参考スコア(独自算出の注目度): 16.99502075851124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing across unknown targets is critical for open-world perception, yet existing 3D Multi-Object Tracking (3D MOT) pipelines remain limited by closed-set assumptions and ``semantic-blind'' heuristics. To address this, we propose Next-step Open-Vocabulary Autoregression (NOVA), an innovative paradigm that shifts 3D tracking from traditional fragmented distance-based matching toward generative spatio-temporal semantic modeling. NOVA reformulates 3D trajectories as structured spatio-temporal semantic sequences, enabling the simultaneous encoding of physical motion continuity and deep linguistic priors. By leveraging the autoregressive capabilities of Large Language Models (LLMs), we transform the tracking task into a principled process of next-step sequence completion. This mechanism allows the model to explicitly utilize the hierarchical structure of language space to resolve fine-grained semantic ambiguities and maintain identity consistency across complex long-range sequences through high-level commonsense reasoning. Extensive experiments on nuScenes, V2X-Seq-SPD, and KITTI demonstrate the superior performance of NOVA. Notably, on the nuScenes dataset, NOVA achieves an AMOTA of 22.41% for Novel categories, yielding a significant 20.21% absolute improvement over the baseline. These gains are realized through a compact 0.5B autoregressive model. Code will be available at https://github.com/xifen523/NOVA.
- Abstract(参考訳): 未知のターゲットをまたいで一般化することは、オープンワールドの認識にとって重要であるが、既存の3次元多目的追跡(3D MOT)パイプラインは、クローズドセットの仮定と 'semantic-blind''' ヒューリスティックスによって制限されている。
そこで我々は,従来の断片化距離に基づくマッチングから生成時空間的セマンティックモデリングへ3次元追跡をシフトさせる革新的なパラダイムであるNOVA(Next-step Open-Vocabulary Autoregression)を提案する。
NOVAは3次元軌跡を構造化時空間意味配列として再構成し、物理運動連続性と深い言語的先行性の同時符号化を可能にする。
本研究では,Large Language Models (LLMs) の自己回帰機能を活用することで,追跡タスクを次のステップのシーケンス完了の原理的なプロセスに変換する。
このメカニズムにより、モデルは言語空間の階層構造を明示的に利用し、細粒度のセマンティックな曖昧さを解消し、高レベルなコモンセンス推論を通じて複雑な長距離シーケンス間のアイデンティティ一貫性を維持することができる。
nuScenes, V2X-Seq-SPD, KITTIの広範囲な実験によりNOVAの優れた性能が示された。
特に nuScenes データセットでは、NOVA は新規カテゴリに対して 22.41% の AMOTA を達成し、ベースラインに対して 20.21% の絶対的な改善をもたらす。
これらの利得は、コンパクトな0.5B自己回帰モデルによって実現される。
コードはhttps://github.com/xifen523/NOVA.comから入手できる。
関連論文リスト
- Features Emerge as Discrete States: The First Application of SAEs to 3D Representations [5.751184796461698]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを分解する強力な辞書学習技術である。
53k3Dモデルに適用した最先端3D再構成VAEの特徴を解析し,SAEの3D領域への最初の応用について述べる。
論文 参考訳(メタデータ) (2025-12-12T03:54:45Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - Unleashing Semantic and Geometric Priors for 3D Scene Completion [18.515824341739]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律走行とロボットナビゲーションのための密集した幾何学的および意味的知覚を提供する。
既存の手法は、意味的および幾何学的事前情報を提供するために結合エンコーダに依存している。
本稿では、ソースレベルとパスレベルの両方で二重分離を行う新しいフレームワークであるFoundationSSCを提案する。
論文 参考訳(メタデータ) (2025-08-19T08:10:39Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。