論文の概要: UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs
- arxiv url: http://arxiv.org/abs/2511.01768v1
- Date: Mon, 03 Nov 2025 17:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.349162
- Title: UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs
- Title(参考訳): UniLION: 線形グループRNNを用いた統合自動運転モデルを目指して
- Authors: Zhe Liu, Jinghua Hou, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai,
- Abstract要約: UniLIONは、大規模なLiDAR点雲、高解像度のマルチビュー画像、さらには時間的シーケンスを効率的に処理する。
UniLIONは、幅広いコアタスクにわたって、競争力と最先端のパフォーマンスを一貫して提供します。
- 参考スコア(独自算出の注目度): 115.8554707376344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although transformers have demonstrated remarkable capabilities across various domains, their quadratic attention mechanisms introduce significant computational overhead when processing long-sequence data. In this paper, we present a unified autonomous driving model, UniLION, which efficiently handles large-scale LiDAR point clouds, high-resolution multi-view images, and even temporal sequences based on the linear group RNN operator (i.e., performs linear RNN for grouped features). Remarkably, UniLION serves as a single versatile architecture that can seamlessly support multiple specialized variants (i.e., LiDAR-only, temporal LiDAR, multi-modal, and multi-modal temporal fusion configurations) without requiring explicit temporal or multi-modal fusion modules. Moreover, UniLION consistently delivers competitive and even state-of-the-art performance across a wide range of core tasks, including 3D perception (e.g., 3D object detection, 3D object tracking, 3D occupancy prediction, BEV map segmentation), prediction (e.g., motion prediction), and planning (e.g., end-to-end planning). This unified paradigm naturally simplifies the design of multi-modal and multi-task autonomous driving systems while maintaining superior performance. Ultimately, we hope UniLION offers a fresh perspective on the development of 3D foundation models in autonomous driving. Code is available at https://github.com/happinesslz/UniLION
- Abstract(参考訳): 変換器は様々な領域にまたがって顕著な機能を示してきたが、その二次的注意機構は長いシーケンスデータを処理する際にかなりの計算オーバーヘッドをもたらす。
本稿では,大規模LiDAR点群,高解像度マルチビュー画像,さらには線形群RNN演算子に基づく時間的シーケンス(つまり,グループ化された特徴に対して線形RNNを実行する)を効率的に処理する統合自律運転モデルUniLIONを提案する。
注目すべきことに、UniLIONは単一の汎用アーキテクチャとして機能し、複数の特殊変数(LiDARのみ、時間的LiDAR、マルチモーダル、マルチモーダル)を明示的な時間的またはマルチモーダルの融合モジュールを必要とせずにシームレスにサポートできる。
さらに、UniLIONは3D知覚(3Dオブジェクト検出、3Dオブジェクト追跡、3D占有率予測、BEVマップセグメンテーション)、予測(例えば、モーション予測)、計画(例えば、エンドツーエンド計画)など、幅広いコアタスクにわたって、競争力と最先端のパフォーマンスを一貫して提供します。
この統一パラダイムは、優れた性能を維持しつつ、マルチモーダル・マルチタスク自動運転システムの設計を自然に単純化する。
最終的には、UniLIONが自動運転における3D基礎モデルの開発について、新たな視点を提供することを期待している。
コードはhttps://github.com/happinesslz/UniLIONで入手できる。
関連論文リスト
- LION: Linear Group RNN for 3D Object Detection in Point Clouds [85.97541374148508]
本稿では,LInear grOup RNN上に構築されたウィンドウベースフレームワークを提案する。
3次元空間特徴記述器を導入し,それを線形群 RNN 演算子に統合して空間特徴を増強する。
高分散点雲の課題にさらに対処するため,前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:50:32Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。