Fugu-MT 論文翻訳(概要): 4D Contrastive Superflows are Dense 3D Representation Learners

論文の概要: 4D Contrastive Superflows are Dense 3D Representation Learners

arxiv url: http://arxiv.org/abs/2407.06190v1
Date: Mon, 8 Jul 2024 17:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 14:30:11.009810
Title: 4D Contrastive Superflows are Dense 3D Representation Learners
Title（参考訳）: 4次元逆流は高密度な3次元表現学習者である
Authors: Xiang Xu, Lingdong Kong, Hui Shuai, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Qingshan Liu,
Abstract要約: 我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
参考スコア（独自算出の注目度）: 62.433137130087445
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In the realm of autonomous driving, accurate 3D perception is the foundation. However, developing such models relies on extensive human annotations -- a process that is both costly and labor-intensive. To address this challenge from a data representation learning perspective, we introduce SuperFlow, a novel framework designed to harness consecutive LiDAR-camera pairs for establishing spatiotemporal pretraining objectives. SuperFlow stands out by integrating two key designs: 1) a dense-to-sparse consistency regularization, which promotes insensitivity to point cloud density variations during feature learning, and 2) a flow-based contrastive learning module, carefully crafted to extract meaningful temporal cues from readily available sensor calibrations. To further boost learning efficiency, we incorporate a plug-and-play view consistency module that enhances the alignment of the knowledge distilled from camera views. Extensive comparative and ablation studies across 11 heterogeneous LiDAR datasets validate our effectiveness and superiority. Additionally, we observe several interesting emerging properties by scaling up the 2D and 3D backbones during pretraining, shedding light on the future research of 3D foundation models for LiDAR-based perception.
Abstract（参考訳）: 自動運転の分野では、正確な3D認識が基礎となっている。しかし、そのようなモデルを開発するには、コストと労力のかかるプロセスである広範囲な人間のアノテーションに依存します。データ表現学習の観点から、この課題に対処するために、時空間事前学習の目的を確立するために連続的なLiDARカメラペアを利用する新しいフレームワークであるSuperFlowを紹介する。 SuperFlowは2つの重要な設計を統合することで際立っている。 1) 特徴学習中の点雲密度変化に対する感度を高める高密度・疎整整合正則化、及び 2) 簡易なセンサキャリブレーションから有意義な時間的手がかりを抽出するフローベースコントラスト学習モジュール。学習効率をさらに高めるため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。 11の異種LiDARデータセットに対する大規模な比較およびアブレーション研究は、我々の有効性と優越性を検証した。さらに,2次元および3次元のバックボーンを事前トレーニング中にスケールアップし,LiDARに基づく知覚のための3次元基礎モデルの今後の研究に光を当てることにより,いくつかの興味深い新興特性を観察する。

関連論文リスト

PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector [15.8414696386661]
基礎モデルエンコーダとソフトプロンプトを統合したPF3Det(Prompted Foundational 3D Detector)を提案する。 PF3Detは、限られたトレーニングデータの下で最先端の結果を達成し、NDSを1.19%改善し、nuScenesデータセットでmAPを2.42%改善した。
論文参考訳（メタデータ） (2025-04-04T16:11:25Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文参考訳（メタデータ） (2024-09-17T09:30:43Z)
Study of Dropout in PointPillars with 3D Object Detection [0.0]
ディープラーニング技術を活用してLiDARデータを解釈する。本研究では,ポイントピラーモデルの性能を様々なドロップアウト率で向上させる手法を提案する。
論文参考訳（メタデータ） (2024-09-01T09:30:54Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文参考訳（メタデータ） (2024-05-08T17:59:53Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection [77.23918785277404]
半教師付き3次元物体検出のための拡散モデルを用いて,擬似ラベルの品質向上に向けた新たな視点であるDiffusion-SS3Dを提案する。具体的には、劣化した3Dオブジェクトサイズとクラスラベル、分布を生成し、拡散モデルをデノナイズプロセスとして利用し、バウンディングボックス出力を得る。我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。
論文参考訳（メタデータ） (2023-12-05T18:54:03Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。 STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文参考訳（メタデータ） (2021-09-01T04:17:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。