論文の概要: Toward Unified Multimodal Representation Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.07874v1
- Date: Mon, 09 Mar 2026 01:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.334604
- Title: Toward Unified Multimodal Representation Learning for Autonomous Driving
- Title(参考訳): 自律運転のための統一型マルチモーダル表現学習に向けて
- Authors: Ximeng Tao, Dimitar Filev, Gaurav Pandey,
- Abstract要約: コントラスト言語-画像事前学習は、視覚的およびテキスト的表現の整列において印象的な性能を示した。
一般的な戦略は、3Dエンコーダのトレーニングをガイドするために、モダリティ間のペアワイズコサイン類似性を採用することである。
組込み空間において複数のモードを同時に調整するコントラスト事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.8019970256582094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has shown impressive performance in aligning visual and textual representations. Recent studies have extended this paradigm to 3D vision to improve scene understanding for autonomous driving. A common strategy is to employ pairwise cosine similarity between modalities to guide the training of a 3D encoder. However, considering the similarity between individual modality pairs rather than all modalities jointly fails to ensure consistent and unified alignment across the entire multimodal space. In this paper, we propose a Contrastive Tensor Pre-training (CTP) framework that simultaneously aligns multiple modalities in a unified embedding space to enhance end-to-end autonomous driving. Compared with pairwise cosine similarity alignment, our method extends the 2D similarity matrix into a multimodal similarity tensor. Furthermore, we introduce a tensor loss to enable joint contrastive learning across all modalities. For experimental validation of our framework, we construct a text-image-point cloud triplet dataset derived from existing autonomous driving datasets. The results show that our proposed unified multimodal alignment framework achieves favorable performance for both scenarios: (i) aligning a 3D encoder with pretrained CLIP encoders, and (ii) pretraining all encoders from scratch.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は視覚的およびテキスト的表現の整合性に優れた性能を示した。
近年の研究では、このパラダイムを3次元視覚に拡張し、自動運転のシーン理解を改善している。
一般的な戦略は、3Dエンコーダのトレーニングをガイドするために、モダリティ間のペアワイズコサイン類似性を採用することである。
しかし、すべてのモダリティよりも個々のモダリティ対の類似性を考えると、共同でマルチモーダル空間全体にわたって一貫した統一的なアライメントを確保することに失敗する。
本稿では,複数モーダルを同時に組み合わせたコントラストテンソル事前学習(Contrastive Tensor Pre-training, CTP)フレームワークを提案する。
ペアワイズコサイン類似性アライメントと比較して、本手法は2次元類似性行列をマルチモーダル類似性テンソルに拡張する。
さらに,全てのモダリティをまたいだ共同コントラスト学習を実現するために,テンソルロスを導入する。
筆者らのフレームワークを実験的に検証するために,既存の自律運転データセットから派生したテキストイメージポイントクラウドトリプルデータセットを構築した。
以上の結果から,提案した統合マルチモーダルアライメントフレームワークは,どちらのシナリオでも良好な性能を発揮することが示された。
(i)事前訓練されたCLIPエンコーダに3Dエンコーダをアライメントし、
(ii)すべてのエンコーダをスクラッチから事前訓練すること。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。