論文の概要: MaskFuser: Masked Fusion of Joint Multi-Modal Tokenization for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2405.07573v1
- Date: Mon, 13 May 2024 09:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:24:56.618418
- Title: MaskFuser: Masked Fusion of Joint Multi-Modal Tokenization for End-to-End Autonomous Driving
- Title(参考訳): MaskFuser: エンド・ツー・エンド自動運転のためのマルチモーダル複合化のマスク付き融合
- Authors: Yiqun Duan, Xianda Guo, Zheng Zhu, Zhen Wang, Yu-Kai Wang, Chin-Teng Lin,
- Abstract要約: 本稿では,様々なモダリティを統一的な意味的特徴空間にトークン化するMaskFuserを提案する。
統一されたトークン表現を考えると、MaskFuserは、クロスモダリティのマスク付きオートエンコーダトレーニングを導入する最初の作業である。
初期の融合段階では、分岐間でモノトニックからBEVへの変換注意をすることでモダリティを融合させ、様々なモダリティを共有符号化された統一トークン空間にトークン化して後期融合を行う。
- 参考スコア(独自算出の注目度): 41.76378279242968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-modality driving frameworks normally fuse representation by utilizing attention between single-modality branches. However, the existing networks still suppress the driving performance as the Image and LiDAR branches are independent and lack a unified observation representation. Thus, this paper proposes MaskFuser, which tokenizes various modalities into a unified semantic feature space and provides a joint representation for further behavior cloning in driving contexts. Given the unified token representation, MaskFuser is the first work to introduce cross-modality masked auto-encoder training. The masked training enhances the fusion representation by reconstruction on masked tokens. Architecturally, a hybrid-fusion network is proposed to combine advantages from both early and late fusion: For the early fusion stage, modalities are fused by performing monotonic-to-BEV translation attention between branches; Late fusion is performed by tokenizing various modalities into a unified token space with shared encoding on it. MaskFuser respectively reaches a driving score of 49.05 and route completion of 92.85% on the CARLA LongSet6 benchmark evaluation, which improves the best of previous baselines by 1.74 and 3.21%. The introduced masked fusion increases driving stability under damaged sensory inputs. MaskFuser outperforms the best of previous baselines on driving score by 6.55 (27.8%), 1.53 (13.8%), 1.57 (30.9%), respectively given sensory masking ratios 25%, 50%, and 75%.
- Abstract(参考訳): 現在のマルチモダリティ駆動フレームワークは、通常、単一モダリティブランチ間の注意を生かして表現を融合する。
しかし、既存のネットワークはイメージとLiDARのブランチが独立しており、統一された観察表現がないため、駆動性能を抑え続けている。
そこで本稿では,様々なモダリティを統一的な意味的特徴空間にトークン化するMaskFuserを提案する。
統一されたトークン表現を考えると、MaskFuserは、クロスモダリティのマスク付きオートエンコーダトレーニングを導入する最初の作業である。
マスク付きトレーニングは、マスク付きトークンの再構成による融合表現を強化する。
初期核融合の段階では、分岐間で単調-BEV変換の注意をすることでモダリティを融合させ、後期核融合は様々なモダリティを共通のエンコーディングで統一トークン空間にトークン化する。
MaskFuser は CARLA LongSet6 ベンチマークでそれぞれ 49.05 のドライブスコアと 92.85% のルート完了を達成した。
仮面融合は、損傷した感覚入力下での駆動安定性を高める。
MaskFuserは以前のベースラインよりも6.55(27.8%)、1.53(13.8%)、1.57(30.9%)、感覚マスキング比25%、50%、75%を達成している。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - PersonMAE: Person Re-Identification Pre-Training with Masked
AutoEncoders [132.60355401780407]
個人再識別のための汎用的特徴表現(ReID)の学習において,事前学習はますます重要な役割を担っている
本稿では,Person Re-IDの課題に対処するために,2つのコア設計をマスク付きオートエンコーダに組み込んだPersonMAEを提案する。
ViT-Bのバックボーンを持つ PersonMAE は MSMT17 と OccDuke のデータセット上で 79.8% と 69.5% の mAP を達成する。
論文 参考訳(メタデータ) (2023-11-08T07:02:27Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers [35.26148770111607]
Mixed and Masked AutoEncoder (MixMAE) は、様々な階層型視覚変換器に適用可能な、シンプルだが効率的な事前学習手法である。
本稿では,Swin-B/W14を用いたMixMAEにおいて,600エポックの事前トレーニングにより,ImageNet-1K上で85.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-05-26T04:00:42Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。