論文の概要: Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations
- arxiv url: http://arxiv.org/abs/2507.05260v1
- Date: Mon, 07 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.567484
- Title: Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations
- Title(参考訳): One Shot, Beyond one Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations
- Authors: Xiang Xu, Lingdong Kong, Song Wang, Chuanwei Zhou, Qingshan Liu,
- Abstract要約: LiMAは、LiDAR表現学習を強化するために、より長い時間的相関をキャプチャする新しいフレームワークである。
LiMAは事前トレーニングの効率が高く、下流タスク中に計算オーバーヘッドを発生させることはない。
主流のLiDARベースの知覚ベンチマークの実験により、LiMAはLiDARセマンティックセグメンテーションと3Dオブジェクト検出の両方を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 23.21118045286231
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LiDAR representation learning aims to extract rich structural and semantic information from large-scale, readily available datasets, reducing reliance on costly human annotations. However, existing LiDAR representation strategies often overlook the inherent spatiotemporal cues in LiDAR sequences, limiting their effectiveness. In this work, we propose LiMA, a novel long-term image-to-LiDAR Memory Aggregation framework that explicitly captures longer range temporal correlations to enhance LiDAR representation learning. LiMA comprises three key components: 1) a Cross-View Aggregation module that aligns and fuses overlapping regions across neighboring camera views, constructing a more unified and redundancy-free memory bank; 2) a Long-Term Feature Propagation mechanism that efficiently aligns and integrates multi-frame image features, reinforcing temporal coherence during LiDAR representation learning; and 3) a Cross-Sequence Memory Alignment strategy that enforces consistency across driving sequences, improving generalization to unseen environments. LiMA maintains high pretraining efficiency and incurs no additional computational overhead during downstream tasks. Extensive experiments on mainstream LiDAR-based perception benchmarks demonstrate that LiMA significantly improves both LiDAR semantic segmentation and 3D object detection. We hope this work inspires more effective pretraining paradigms for autonomous driving. The code has be made publicly accessible for future research.
- Abstract(参考訳): LiDAR表現学習は、大規模で手軽に利用できるデータセットから豊富な構造情報と意味情報を抽出することを目的としており、コストのかかる人間のアノテーションへの依存を減らす。
しかし、既存のLiDAR表現戦略は、LiDARシーケンスに固有の時空間的手がかりを見落とし、その効果を制限している。
本研究では,LiDAR表現学習を強化するために,より長い時間的相関関係を明示的にキャプチャする,新しい長期画像からLiDARメモリの集約フレームワークLiMAを提案する。
LiMAは3つの重要なコンポーネントから構成される。
1) 隣接するカメラビューにまたがって重複する領域を整列してヒューズするクロスビューアグリゲーションモジュールで、より統一的で冗長性のないメモリバンクを構築する。
2)LiDAR表現学習における時間的コヒーレンスを強化し、多フレーム画像の特徴を効率的に調整・統合する長期的特徴伝達機構
3) 駆動シーケンス間の一貫性を強制し、目に見えない環境への一般化を改善するクロスシーケンスメモリアライメント戦略。
LiMAは事前学習の効率を高く保ち、下流タスク中に計算オーバーヘッドを発生させない。
主流のLiDARベースの知覚ベンチマークに関する大規模な実験により、LiMAはLiDARセマンティックセグメンテーションと3Dオブジェクト検出の両方を大幅に改善することが示された。
この取り組みによって、自動運転のためのより効果的な事前訓練パラダイムがもたらされることを願っています。
コードは、将来の研究のために公開されています。
関連論文リスト
- SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。
我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文 参考訳(メタデータ) (2025-01-07T18:59:58Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [50.808933338389686]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。