Fugu-MT 論文翻訳(概要): Self-supervised Pre-training for Transferable Multi-modal Perception

論文の概要: Self-supervised Pre-training for Transferable Multi-modal Perception

arxiv url: http://arxiv.org/abs/2405.17942v1
Date: Tue, 28 May 2024 08:13:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 19:37:52.922795
Title: Self-supervised Pre-training for Transferable Multi-modal Perception
Title（参考訳）: 移動可能なマルチモーダル知覚のための自己教師付き事前学習
Authors: Xiaohao Xu, Tianyi Zhang, Jinrong Yang, Matthew Johnson-Roberson, Xiaonan Huang,
Abstract要約: NeRF-Supervised Masked Auto (NS-MAE)は、移動可能なマルチモーダル表現学習のための自己教師付き事前学習パラダイムである。提案手法は,ニューラルレイディアンスフィールド(NeRF)におけるマスク付きマルチモーダル再構成を用いて,欠落または破損した入力データを再構成するモデルを訓練する。広範囲な実験により、多モードおよび単一モード知覚モデル間のNS-MAE表現の有望な伝達性を示す。
参考スコア（独自算出の注目度）: 15.93440465377068
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In autonomous driving, multi-modal perception models leveraging inputs from multiple sensors exhibit strong robustness in degraded environments. However, these models face challenges in efficiently and effectively transferring learned representations across different modalities and tasks. This paper presents NeRF-Supervised Masked Auto Encoder (NS-MAE), a self-supervised pre-training paradigm for transferable multi-modal representation learning. NS-MAE is designed to provide pre-trained model initializations for efficient and high-performance fine-tuning. Our approach uses masked multi-modal reconstruction in neural radiance fields (NeRF), training the model to reconstruct missing or corrupted input data across multiple modalities. Specifically, multi-modal embeddings are extracted from corrupted LiDAR point clouds and images, conditioned on specific view directions and locations. These embeddings are then rendered into projected multi-modal feature maps using neural rendering techniques. The original multi-modal signals serve as reconstruction targets for the rendered feature maps, facilitating self-supervised representation learning. Extensive experiments demonstrate the promising transferability of NS-MAE representations across diverse multi-modal and single-modal perception models. This transferability is evaluated on various 3D perception downstream tasks, such as 3D object detection and BEV map segmentation, using different amounts of fine-tuning labeled data. Our code will be released to support the community.
Abstract（参考訳）: 自律運転においては、複数のセンサからの入力を利用するマルチモーダル認識モデルは、劣化した環境において強い堅牢性を示す。しかし、これらのモデルは、異なるモダリティやタスク間で学習した表現を効率的かつ効果的に転送する上で、課題に直面している。本稿では,移動可能なマルチモーダル表現学習のための自己教師付き事前学習パラダイムであるNeRF-Supervised Masked Auto Encoder (NS-MAE)を提案する。 NS-MAEは、効率的かつ高性能な微調整のための事前訓練されたモデル初期化を提供するように設計されている。提案手法は,ニューラルレイディアンスフィールド(NeRF)におけるマスク付きマルチモーダル再構成を用いて,複数のモーダルの欠落や破損した入力データを再構成するモデルを訓練する。具体的には、劣化したLiDAR点雲と画像からマルチモーダル埋め込みを抽出し、特定のビュー方向と位置で条件付けする。これらの埋め込みは、ニューラルレンダリング技術を用いて投影されたマルチモーダル特徴写像に描画される。元のマルチモーダル信号はレンダリングされた特徴マップの再構成ターゲットとして機能し、自己教師付き表現学習を容易にする。広範囲な実験により、多モードおよび単一モード知覚モデル間のNS-MAE表現の有望な伝達性を示す。この伝達性は、3Dオブジェクト検出やBEVマップセグメンテーションなどの下流の様々な3次元知覚タスクにおいて、異なる量の微調整ラベル付きデータを用いて評価される。私たちのコードはコミュニティをサポートするためにリリースされます。

関連論文リスト

Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文参考訳（メタデータ） (2025-03-05T09:30:49Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文参考訳（メタデータ） (2024-07-14T09:39:44Z)
Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T08:46:29Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Towards Transferable Multi-modal Perception Representation Learning for Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文参考訳（メタデータ） (2023-11-23T00:53:11Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文参考訳（メタデータ） (2023-06-01T05:06:56Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文参考訳（メタデータ） (2023-03-09T16:13:27Z)
BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文参考訳（メタデータ） (2022-12-12T08:15:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。