論文の概要: RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2301.10222v1
- Date: Tue, 24 Jan 2023 18:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:40:46.536493
- Title: RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving
- Title(参考訳): rangevit:自動運転における3次元意味セグメンテーションのための視覚トランスフォーマ
- Authors: Angelika Ando, Spyros Gidaris, Andrei Bursuc, Gilles Puy, Alexandre
Boulch, Renaud Marlet
- Abstract要約: 視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 80.14669385741202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Casting semantic segmentation of outdoor LiDAR point clouds as a 2D problem,
e.g., via range projection, is an effective and popular approach. These
projection-based methods usually benefit from fast computations and, when
combined with techniques which use other point cloud representations, achieve
state-of-the-art results. Today, projection-based methods leverage 2D CNNs but
recent advances in computer vision show that vision transformers (ViTs) have
achieved state-of-the-art results in many image-based benchmarks. In this work,
we question if projection-based methods for 3D semantic segmentation can
benefit from these latest improvements on ViTs. We answer positively but only
after combining them with three key ingredients: (a) ViTs are notoriously hard
to train and require a lot of training data to learn powerful representations.
By preserving the same backbone architecture as for RGB images, we can exploit
the knowledge from long training on large image collections that are much
cheaper to acquire and annotate than point clouds. We reach our best results
with pre-trained ViTs on large image datasets. (b) We compensate ViTs' lack of
inductive bias by substituting a tailored convolutional stem for the classical
linear embedding layer. (c) We refine pixel-wise predictions with a
convolutional decoder and a skip connection from the convolutional stem to
combine low-level but fine-grained features of the the convolutional stem with
the high-level but coarse predictions of the ViT encoder. With these
ingredients, we show that our method, called RangeViT, outperforms existing
projection-based methods on nuScenes and SemanticKITTI. We provide the
implementation code at https://github.com/valeoai/rangevit.
- Abstract(参考訳): 外部LiDAR点雲のキャスティングセマンティックセマンティックセグメンテーションは、例えばレンジプロジェクションによる2次元問題として、効果的で一般的なアプローチである。
これらのプロジェクションベースの手法は、通常は高速計算の恩恵を受け、他のポイントクラウド表現を使用する技術と組み合わせると、最先端の結果が得られる。
今日、投影ベースの手法は2d cnnを利用するが、コンピュータビジョンの最近の進歩により、視覚トランスフォーマー(vits)は多くの画像ベースのベンチマークで最先端の結果を得た。
本研究では,3次元セマンティックセグメンテーションのプロジェクションに基づく手法が,ViTの最近の改良の恩恵を受けるかどうかを問う。
私たちは正に答えるが、それらと3つの主要な材料を組み合わせることでのみ答える。
(a)ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために多くのトレーニングデータが必要です。
RGBイメージと同じバックボーンアーキテクチャを保存することで、ポイントクラウドよりもはるかに安価でアノテート可能な大規模なイメージコレクションの長いトレーニングから知識を活用できます。
大規模な画像データセット上で、トレーニング済みのViTで最高の結果を得る。
b) 古典的な線形埋込み層に対して, 適合した畳み込み茎を置換することにより, ViTsの誘導バイアスの欠如を補う。
c)畳み込みデコーダと畳み込みステムからのスキップ接続により,畳み込みステムの低レベルだが細粒度の特徴とvitエンコーダの高レベルだが粗い予測を組み合わせることにより,画素単位での予測を洗練する。
これらの材料を用いて,本手法はRangeViTと呼ばれ,nuScenes や SemanticKITTI の既存のプロジェクションベース手法よりも優れていることを示す。
実装コードはhttps://github.com/valeoai/rangevit.comで提供します。
関連論文リスト
- Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。