論文の概要: Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder
- arxiv url: http://arxiv.org/abs/2311.13750v2
- Date: Wed, 6 Dec 2023 05:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:50:18.605110
- Title: Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder
- Title(参考訳): 自律性のための伝達可能なマルチモーダル知覚表現学習に向けて:NeRF-Supervised Masked AutoEncoder
- Authors: Xiaohao Xu
- Abstract要約: 本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work proposes a unified self-supervised pre-training framework for
transferable multi-modal perception representation learning via masked
multi-modal reconstruction in Neural Radiance Field (NeRF), namely
NeRF-Supervised Masked AutoEncoder (NS-MAE). Specifically, conditioned on
certain view directions and locations, multi-modal embeddings extracted from
corrupted multi-modal input signals, i.e., Lidar point clouds and images, are
rendered into projected multi-modal feature maps via neural rendering. Then,
original multi-modal signals serve as reconstruction targets for the rendered
multi-modal feature maps to enable self-supervised representation learning.
Extensive experiments show that the representation learned via NS-MAE shows
promising transferability for diverse multi-modal and single-modal (camera-only
and Lidar-only) perception models on diverse 3D perception downstream tasks (3D
object detection and BEV map segmentation) with diverse amounts of fine-tuning
labeled data. Moreover, we empirically find that NS-MAE enjoys the synergy of
both the mechanism of masked autoencoder and neural radiance field. We hope
this study can inspire exploration of more general multi-modal representation
learning for autonomous agents.
- Abstract(参考訳): 本研究では、NeRF(Near Radiance Field)におけるマスク付きマルチモーダル再構成(NeRF-Supervised Masked AutoEncoder, NS-MAE)による、伝達可能なマルチモーダル認識表現学習のための統合型事前学習フレームワークを提案する。
具体的には、特定の視点方向や位置に基づいて、破損したマルチモーダル入力信号、すなわちlidar点雲や画像から抽出されたマルチモーダル埋め込みを、ニューラルネットワークによる投影されたマルチモーダル特徴マップに描画する。
そして、元のマルチモーダル信号はレンダリングされたマルチモーダル特徴写像の再構成ターゲットとして機能し、自己教師付き表現学習を可能にする。
NS-MAEを用いて学習した表現は、多様な微調整ラベル付きデータを用いて、多様な3次元認識下流タスク(3Dオブジェクト検出およびBEVマップセグメンテーション)上の多モードおよび単モード(カメラのみおよびライダーのみ)知覚モデルに対する有望な伝達可能性を示す。
さらに、NS-MAEは、マスキングオートエンコーダとニューラルラディアンスフィールドの両方の機構の相乗効果を経験的に享受している。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
関連論文リスト
- Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - 4M: Massively Multimodal Masked Modeling [20.69496647914175]
現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Mirror U-Net: Marrying Multimodal Fission with Multi-task Learning for
Semantic Segmentation in Medical Imaging [19.011295977183835]
従来の融合法をマルチモーダル核分裂に置き換えるミラーU-Netを提案する。
Mirror U-Netは、共有表現でマルチモーダルな特徴を保持しながら、モダリティごとに調整されたタスクを割り当てる。
我々は、AutoPET PET/CTおよびマルチモーダルMSD BrainTumorデータセット上でミラーU-Netを評価し、マルチモーダルセグメンテーションの有効性を実証し、両方のデータセットで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-03-13T13:57:29Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。