論文の概要: Self-Supervised Representation Learning with Joint Embedding Predictive Architecture for Automotive LiDAR Object Detection
- arxiv url: http://arxiv.org/abs/2501.04969v2
- Date: Tue, 07 Oct 2025 02:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.676821
- Title: Self-Supervised Representation Learning with Joint Embedding Predictive Architecture for Automotive LiDAR Object Detection
- Title(参考訳): 自動車用LiDARオブジェクト検出のための共同埋め込み予測アーキテクチャによる自己教師付き表現学習
- Authors: Haoran Zhu, Zhenyuan Dong, Kristi Topollai, Beiyao Sha, Anna Choromanska,
- Abstract要約: 本稿では,自動運転のための新しい自己指導型事前学習フレームワークAD-L-JEPAを提案する。
既存の方法とは異なり、AD-L-JEPAは生成的でもコントラスト的でもない。
高品質、高速、GPUメモリ効率の高い自己教師あり表現学習を提供する。
- 参考スコア(独自算出の注目度): 10.19369242630191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised representation learning relying on vast amounts of unlabeled data has been explored as a pre-training method for autonomous driving. However, directly applying popular contrastive or generative methods to this problem is insufficient and may even lead to negative transfer. In this paper, we present AD-L-JEPA, a novel self-supervised pre-training framework with a joint embedding predictive architecture (JEPA) for automotive LiDAR object detection. Unlike existing methods, AD-L-JEPA is neither generative nor contrastive. Instead of explicitly generating masked regions, our method predicts Bird's-Eye-View embeddings to capture the diverse nature of driving scenes. Furthermore, our approach eliminates the need to manually form contrastive pairs by employing explicit variance regularization to avoid representation collapse. Experimental results demonstrate consistent improvements on the LiDAR 3D object detection downstream task across the KITTI3D, Waymo, and ONCE datasets, while reducing GPU hours by 1.9x-2.7x and GPU memory by 2.8x-4x compared with the state-of-the-art method Occupancy-MAE. Notably, on the largest ONCE dataset, pre-training on 100K frames yields a 1.61 mAP gain, better than all other methods pre-trained on either 100K or 500K frames, and pre-training on 500K frames yields a 2.98 mAP gain, better than all other methods pre-trained on either 500K or 1M frames. AD-L-JEPA constitutes the first JEPA-based pre-training method for autonomous driving. It offers better quality, faster, and more GPU-memory-efficient self-supervised representation learning. The source code of AD-L-JEPA is ready to be released.
- Abstract(参考訳): 近年,大量のラベル付きデータを利用した自己教師型表現学習が,自動運転の事前学習方法として検討されている。
しかし、この問題に対して一般的なコントラスト法や生成法を直接適用することは不十分であり、負の移動につながることもある。
本稿では,自動車用LiDARオブジェクト検出のためのジョイント埋め込み予測アーキテクチャ(JEPA)を備えた,自己教師型事前学習フレームワークAD-L-JEPAを提案する。
既存の方法とは異なり、AD-L-JEPAは生成的でもコントラスト的でもない。
マスクされた領域を明示的に生成する代わりに,Bird's-Eye-Viewの埋め込みを予測して,運転シーンの多様な性質を捉える。
さらに,提案手法では,表現の崩壊を避けるために,明示的な分散正規化を用いることで,コントラッシブなペアを手作業で形成する必要がなくなる。
実験結果は、KITTI3D、Waymo、ONCEデータセットをまたいだ下流タスクのLiDAR 3Dオブジェクト検出において、最先端のOccupancy-MAEと比較してGPU時間を1.9x-2.7x、GPUメモリを2.8x-4x削減し、一貫した改善を示した。
特に、100Kフレームでの事前トレーニングでは、100Kフレームまたは500Kフレームで事前トレーニングされた他のすべてのメソッドよりも1.61 mAPの利得が得られ、500Kフレームで事前トレーニングされた他のすべてのメソッドよりも2.98 mAPの利得が得られている。
AD-L-JEPAは、JEPAベースの自動運転のための最初の事前訓練方法である。
高品質、高速、GPUメモリ効率の高い自己教師あり表現学習を提供する。
AD-L-JEPAのソースコードはリリース準備が整っている。
関連論文リスト
- VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process [40.3578745624081]
本稿では,VLM(Visual Language Models)を最先端のエンドツーエンドシステムと統合した視覚言語自律運転モデルを提案する。
モデルの空間的推論能力を改善するために特別に設計された質問応答データセットを用いて、特殊な微調整手法を実装した。
本システムは,従来のブラックボックス・エンド・ツー・エンドアーキテクチャの透明性と信頼性を高めるために,運転決定の解釈可能な自然言語説明を生成する。
論文 参考訳(メタデータ) (2025-07-02T01:52:40Z) - Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。
まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。
我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文 参考訳(メタデータ) (2025-05-13T17:59:20Z) - DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving [17.939192289319056]
本稿では,条件付き画像生成タスクとして自律運転を再定義する拡散確率モデルであるDiffADを紹介する。
不均一な目標を統一された鳥眼ビュー(BEV)に固定し、その潜伏分布をモデル化することにより、DiffADは様々な駆動目標を統一する。
逆プロセスは生成したBEV画像を反復的に洗練し、より堅牢で現実的な運転行動をもたらす。
論文 参考訳(メタデータ) (2025-03-15T15:23:35Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework [3.8320050452121692]
本稿では,効率的な自律運転フレームワーク Outlier-Weighed Layerwise Pruning であるOWLedを紹介する。
提案手法は,外乱特性の分布に基づいて,異なる層に対して一様でない空間比を割り当てる。
圧縮モデルが自律運転タスクに適合するようにするため、運転環境データをキャリブレーションとプルーニングの両方に組み込む。
論文 参考訳(メタデータ) (2024-11-12T10:55:30Z) - EditFollower: Tunable Car Following Models for Customizable Adaptive Cruise Control Systems [28.263763430300504]
本研究では,データ駆動型自動車追従モデルを提案する。
本モデルは,運転者の社会的嗜好を考慮に入れたACCシステムの開発に有用な知見を提供する。
論文 参考訳(メタデータ) (2024-06-23T15:04:07Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - Applications of Large Scale Foundation Models for Autonomous Driving [22.651585322658686]
大規模言語モデル(LLM)とチャットシステム、例えばチャットGPTやPaLMは、自然言語処理(NLP)において人工知能(AGI)を実現するための有望な方向性として急速に現れつつある。
本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。
論文 参考訳(メタデータ) (2023-11-20T19:45:27Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Integrated Decision and Control for High-Level Automated Vehicles by
Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。
制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。
実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。