論文の概要: simCrossTrans: A Simple Cross-Modality Transfer Learning for Object
Detection with ConvNets or Vision Transformers
- arxiv url: http://arxiv.org/abs/2203.10456v1
- Date: Sun, 20 Mar 2022 05:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 11:45:59.306770
- Title: simCrossTrans: A Simple Cross-Modality Transfer Learning for Object
Detection with ConvNets or Vision Transformers
- Title(参考訳): simCrossTrans: ConvNet または Vision Transformer を用いたオブジェクト検出のための簡易なクロスモーダルトランス学習
- Authors: Xiaoke Shen, Ioannis Stamos
- Abstract要約: CMTLを2次元から3次元に分割し,3次元センサのみの上限性能について検討した。
2Dから3DビジョンまでのほとんどのCMTLパイプラインは複雑で、畳み込みニューラルネットワーク(ConvNets)をベースとしています。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is widely used in computer vision (CV), natural language
processing (NLP) and achieves great success. Most transfer learning systems are
based on the same modality (e.g. RGB image in CV and text in NLP). However, the
cross-modality transfer learning (CMTL) systems are scarce. In this work, we
study CMTL from 2D to 3D sensor to explore the upper bound performance of 3D
sensor only systems, which play critical roles in robotic navigation and
perform well in low light scenarios. While most CMTL pipelines from 2D to 3D
vision are complicated and based on Convolutional Neural Networks (ConvNets),
ours is easy to implement, expand and based on both ConvNets and Vision
transformers(ViTs): 1) By converting point clouds to pseudo-images, we can use
an almost identical network from pre-trained models based on 2D images. This
makes our system easy to implement and expand. 2) Recently ViTs have been
showing good performance and robustness to occlusions, one of the key reasons
for poor performance of 3D vision systems. We explored both ViT and ConvNet
with similar model sizes to investigate the performance difference. We name our
approach simCrossTrans: simple cross-modality transfer learning with ConvNets
or ViTs. Experiments on SUN RGB-D dataset show: with simCrossTrans we achieve
$13.2\%$ and $16.1\%$ absolute performance gain based on ConvNets and ViTs
separately. We also observed the ViTs based performs $9.7\%$ better than the
ConvNets one, showing the power of simCrossTrans with ViT. simCrossTrans with
ViTs surpasses the previous state-of-the-art (SOTA) by a large margin of
$+15.4\%$ mAP50. Compared with the previous 2D detection SOTA based RGB images,
our depth image only system only has a $1\%$ gap. The code, training/inference
logs and models are publicly available at
https://github.com/liketheflower/simCrossTrans
- Abstract(参考訳): 転送学習はコンピュータビジョン(cv)、自然言語処理(nlp)で広く使われ、大きな成功を収めている。
ほとんどの転送学習システムは、同じモダリティ(例えば、CVのRGB画像とNLPのテキスト)に基づいている。
しかし、cmtl(cross-modality transfer learning)システムは少ない。
本研究では,2次元から3次元のセンサからCMTLを探索し,ロボットナビゲーションにおいて重要な役割を担い,低照度シナリオにおいて良好に機能する3次元センサのみの性能について検討する。
2dから3dへのcmtlパイプラインの多くは複雑で畳み込みニューラルネットワーク(convnets)に基づいているが、convnetsとvision transformers(vits)の両方の実装、拡張、ベースが容易である。
1) 点群を疑似画像に変換することにより, 2次元画像に基づく事前学習モデルからほぼ同一のネットワークを使用できる。
これにより、システムの実装と拡張が容易になります。
2) 近年, 3次元視覚システムの性能低下の要因の一つとして, 閉塞に対して高い性能と堅牢性を示した。
同様のモデルサイズでViTとConvNetを探索し,性能差について検討した。
われわれのアプローチをsimCrossTrans: ConvNets や ViTs を用いた単純なクロスモーダルトランスファー学習と呼ぶ。
SUN RGB-Dデータセットの実験では、simCrossTransでは、ConvNetsとViTsを別々にベースとした13.2\%と16.1\%の絶対的なパフォーマンス向上を実現しています。
また、ViTsベースの性能はConvNetsより9.7\%高いことを観察し、simCrossTrans with ViTのパワーを示した。
simCrossTrans with ViTsは、以前の最先端(SOTA)を+15.4\%$ mAP50で上回っている。
従来の2D検出SOTAベースのRGB画像と比較すると、奥行き画像のみのシステムは1\%のギャップしか持たない。
コード、トレーニング/推論ログ、モデルはhttps://github.com/liketheflower/simCrossTransで公開されている。
関連論文リスト
- RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - VidConv: A modernized 2D ConvNet for Efficient Video Recognition [0.8070014188337304]
ビジョントランスフォーマー(ViT)は、多くのビジョンタスクにおいて、着実に記録を破っている。
ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。
本稿では、ConvNetの近代化された構造を用いて、アクション認識のための新しいバックボーンを設計する。
論文 参考訳(メタデータ) (2022-07-08T09:33:46Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - MFEViT: A Robust Lightweight Transformer-based Network for Multimodal
2D+3D Facial Expression Recognition [1.7448845398590227]
視覚変換器(ViT)はその自己保持機構のため、多くの分野で広く応用されている。
我々は,マルチモーダル2D+3D FER,すなわちMFEViTのための,堅牢で軽量な純粋なトランスフォーマーベースネットワークを提案する。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-20T17:19:39Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。