論文の概要: LiAuto-GeoX: Efficient Grounded Driving Transformer
- arxiv url: http://arxiv.org/abs/2606.05774v1
- Date: Thu, 04 Jun 2026 06:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.608006
- Title: LiAuto-GeoX: Efficient Grounded Driving Transformer
- Title(参考訳): LiAuto-GeoX:効率的な接地駆動変圧器
- Authors: Jiawei Lian, Haoyi Sun, Yang Wu, Lifu Mu, Siyuan Wang, Le Hui, Ning Mao, Tao Wei, Pan Zhou, Kun Zhan, Jian Yang,
- Abstract要約: デプロイ可能なエゴ中心の3Dシーン理解のための効率的な基底駆動トランスフォーマである textbfLiAuto-GeoX を提案する。
textbfLiAuto-GeoX は KITTI 上で 220 FPS で動作し,高忠実度高密度化を保ち,リアルタイムな展開を実現している。
- 参考スコア(独自算出の注目度): 54.23823436153608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense 3D reconstruction has demonstrated immense potential for spatial understanding, yet its viability as a real-time, onboard representation for autonomous driving remains an open challenge. Existing large-scale visual geometry models typically require substantial computational resources and lack the long-range geometric fidelity, surround-view consistency, and real-time efficiency demanded by dynamic driving environments. To bridge this gap, we present \textbf{LiAuto-GeoX}, an efficient grounded driving transformer designed for deployable, ego-centric 3D scene understanding. Our approach begins by learning a high-capacity driving geometry model from large-scale surround-view data, utilizing sparse LiDAR priors to provide robust geometric grounding in distant, ambiguous, or structure-sparse regions. We then instantiate this capability into a highly compact 155M-parameter onboard model through a novel geometry-preserving distillation framework. This framework employs mask-guided depth-aware distillation to retain fine-grained metric structures by emphasizing geometrically informative regions, and relative-pose relational distillation to enforce cross-view spatial consistency through pose-induced geometric relations. Extensive evaluations reveal that \textbf{LiAuto-GeoX} runs at 220 FPS on KITTI while maintaining high-fidelity dense reconstruction, enabling real-time deployment. The learned geometry transfers seamlessly to downstream autonomy tasks, achieving 90.6 PDMS in trajectory prediction, 24.63 mIoU in occupancy prediction, and 47.67 IoU in future-frame prediction. These all demonstrate that efficient dense 3D reconstruction can transcend its traditional role as a perception target to serve as a scalable, foundational geometric representation for next-generation autonomous driving.
- Abstract(参考訳): 深度3Dの再構築は空間的理解にとって大きな可能性を示しているが、リアルタイムな自動運転の車載表現としての生存性は未解決の課題である。
既存の大規模視覚幾何学モデルでは計算資源が必要であり、長距離幾何学的忠実さ、サラウンドビューの整合性、動的駆動環境によって要求されるリアルタイムの効率性が欠如している。
このギャップを埋めるために、デプロイ可能なエゴ中心の3Dシーン理解のために設計された効率的な基底駆動変換器である \textbf{LiAuto-GeoX} を提示する。
我々のアプローチは、大規模サラウンドビューデータから高容量駆動幾何モデルを学習し、疎LiDAR先行値を用いて、遠方、あいまい、または構造スパース領域で頑健な幾何学的接地を提供することから始まる。
そこで我々は, この機能を新しい幾何保存蒸留フレームワークを用いて, コンパクトな155Mパラメタモデルにインスタンス化する。
この枠組みでは, マスク誘導深度対応蒸留を用いて, 幾何学的情報的領域を強調し, 微粒なメートル法構造を保ち, 相対的な関係性蒸留を行い, ポーズ誘起幾何関係を通した空間的整合性を実現する。
大規模な評価の結果, 高忠実度高密度再構築を維持しながら, KITTI上で220FPSで動作し, リアルタイム展開を実現していることがわかった。
学習された幾何学は下流での自律的なタスクにシームレスに移行し、軌道予測では90.6 PDMS、占有予測では24.63 mIoU、将来の予測では47.67 IoUを達成した。
これらすべては、効率的な高密度3D再構築が、次世代自動運転のためのスケーラブルで基礎的な幾何学的表現として機能するために、従来の認識対象としての役割を超越できることを示している。
関連論文リスト
- Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces [18.19675060489249]
S$2$VAEは,シーンの潜伏状態の圧縮と表現に焦点を当てた幾何学第一の潜伏学習フレームワークである。
深度推定, カメラポーズ復元, 点雲再構成では, 幾何配向超球面潜水剤が従来のガウスボトルネックよりも常に優れていたことを示す。
論文 参考訳(メタデータ) (2026-04-30T17:12:31Z) - Cross-Vehicle 3D Geometric Consistency for Self-Supervised Surround Depth Estimation on Articulated Vehicles [3.512352303010361]
そこで本研究では,車体の周囲視深度推定のための自己教師型フレームワークを提案する。
構造コヒーレンスを改善するために,多視点空間拡張戦略とクロスビュー表面正規制約を導入する。
提案手法を検証するために,その上で収集したデータセットを用いて車載実験プラットフォームを構築した。
論文 参考訳(メタデータ) (2026-04-03T02:10:11Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras [3.072321170197384]
GeoSurDepthは、サラウンドビューの深さ推定のための主要なキューとして、幾何整合性を利用するフレームワークである。
筆者らのフレームワークは,頑健な自己教師付き多視点深度推定のための幾何学的コヒーレンスと一貫性を活用することの重要性を強調した。
論文 参考訳(メタデータ) (2026-01-09T15:13:28Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting [31.53981556612888]
職業は自律運転に不可欠であり、知覚と計画に不可欠な幾何学的事前情報を提供する。
既存のメソッドは、主にLiDARベースの占有アノテーションに依存している。
本稿では,視覚のみのスケーラブルなフレームワークであるGS-Occ3Dを提案する。
論文 参考訳(メタデータ) (2025-07-25T17:33:23Z) - GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving [12.889523014369884]
本稿では,時空における任意の将来点を予測して統一表現を学習する幾何学的,意味論的自己教師型事前学習手法GASPを提案する。
実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは、時間を通して環境と環境の一般的な表現を学習する。
論文 参考訳(メタデータ) (2025-03-19T20:00:27Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata [70.9375320609781]
我々は,自律走行車(AV)で多量に捕獲された大規模LiDARスキャンから微細な3次元形状を生成することを目指している。
本稿では,空間的にスケーラブルな3次元生成モデルである階層型生成セルオートマトン (hGCA) を提案する。
論文 参考訳(メタデータ) (2024-06-12T14:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。