論文の概要: SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining
- arxiv url: http://arxiv.org/abs/2503.19912v1
- Date: Tue, 25 Mar 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:41.487020
- Title: SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining
- Title(参考訳): SuperFlow++: クロスモーダルデータ事前トレーニングのための時空間一貫性の強化
- Authors: Xiang Xu, Lingdong Kong, Hui Shuai, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Qingshan Liu,
- Abstract要約: SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 62.433137130087445
- License:
- Abstract: LiDAR representation learning has emerged as a promising approach to reducing reliance on costly and labor-intensive human annotations. While existing methods primarily focus on spatial alignment between LiDAR and camera sensors, they often overlook the temporal dynamics critical for capturing motion and scene continuity in driving scenarios. To address this limitation, we propose SuperFlow++, a novel framework that integrates spatiotemporal cues in both pretraining and downstream tasks using consecutive LiDAR-camera pairs. SuperFlow++ introduces four key components: (1) a view consistency alignment module to unify semantic information across camera views, (2) a dense-to-sparse consistency regularization mechanism to enhance feature robustness across varying point cloud densities, (3) a flow-based contrastive learning approach that models temporal relationships for improved scene understanding, and (4) a temporal voting strategy that propagates semantic information across LiDAR scans to improve prediction consistency. Extensive evaluations on 11 heterogeneous LiDAR datasets demonstrate that SuperFlow++ outperforms state-of-the-art methods across diverse tasks and driving conditions. Furthermore, by scaling both 2D and 3D backbones during pretraining, we uncover emergent properties that provide deeper insights into developing scalable 3D foundation models. With strong generalizability and computational efficiency, SuperFlow++ establishes a new benchmark for data-efficient LiDAR-based perception in autonomous driving. The code is publicly available at https://github.com/Xiangxu-0103/SuperFlow
- Abstract(参考訳): LiDAR表現学習は、コストと労働集約的な人間のアノテーションへの依存を減らすための有望なアプローチとして登場した。
既存の手法は主にLiDARとカメラセンサーの空間的アライメントに重点を置いているが、駆動シナリオにおける動きとシーンの連続性を捉えるのに重要な時間的ダイナミクスを見落としていることが多い。
この制限に対処するために,連続したLiDARカメラペアを用いて,事前学習タスクと下流タスクの両方に時空間キューを統合する新しいフレームワークであるSuperFlow++を提案する。
SuperFlow++は,(1)カメラビュー間でセマンティック情報を統一するためのビュー整合性調整モジュール,(2)様々な点雲密度で特徴の堅牢性を高めるための高密度かつスパースな整合性正規化機構,(3)シーン理解を改善するための時間的関係をモデル化するフローベースのコントラスト学習アプローチ,(4)LiDARスキャン全体でセマンティック情報を伝達し,予測整合性を改善するための時間的投票戦略,の4つの重要なコンポーネントを導入している。
11の異種LiDARデータセットに対する大規模な評価は、SuperFlow++がさまざまなタスクや運転条件で最先端のメソッドより優れていることを示している。
さらに、事前トレーニング中に2Dと3Dの両方のバックボーンをスケールすることで、スケーラブルな3Dファンデーションモデルの開発に関する深い洞察を提供する創発的な特性を明らかにします。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
コードはhttps://github.com/Xiangxu-0103/SuperFlowで公開されている。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving [18.88208422580103]
連続したLiDARスキャンで各点における3次元運動を予測する。
現在の最先端の手法は、シーンフローネットワークをトレーニングするために注釈付きデータを必要とする。
本研究では,効率的な動的分類を学習に基づくシーンフローパイプラインに統合するSeFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T18:22:54Z) - STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow [5.476991379461233]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency [3.124750429062221]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。
また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-12T11:00:39Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。