論文の概要: SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition
using Sparse Voxel Transformers
- arxiv url: http://arxiv.org/abs/2105.00149v1
- Date: Sat, 1 May 2021 02:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:05:29.739914
- Title: SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition
using Sparse Voxel Transformers
- Title(参考訳): SVT-Net:スパースボクセル変換器を用いた大規模位置認識のための超軽量ネットワーク
- Authors: Zhaoxin Fan, Zhenbo Song, Hongyan Liu, Jun He and Xiaoyong Du
- Abstract要約: 大規模位置認識のための超軽量ネットワークであるモデルSVTNetを提案します。
SVT-Netは超軽量モデルサイズ(0.9M)で精度とスピードの両面で最先端の性能を実現できます。
ASVT-NetとCSVT-Netという2つの簡易版も導入され、最先端のパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 12.89239757110425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud-based large scale place recognition is fundamental for many
applications like Simultaneous Localization and Mapping (SLAM). Though previous
methods have achieved good performance by learning short range local features,
long range contextual properties have long been neglected. And model size has
became a bottleneck for further popularizing. In this paper, we propose model
SVTNet, a super light-weight network, for large scale place recognition. In our
work, building on top of the highefficiency 3D Sparse Convolution (SP-Conv), an
Atom-based Sparse Voxel Transformer (ASVT) and a Cluster-based Sparse Voxel
Transformer (CSVT) are proposed to learn both short range local features and
long range contextual features. Consisting of ASVT and CSVT, our SVT-Net can
achieve state-of-art performance in terms of both accuracy and speed with a
super-light model size (0.9M). Two simplified version of SVT-Net named ASVT-Net
and CSVT-Net are also introduced, which also achieve state-of-art performances
while further reduce the model size to 0.8M and 0.4M respectively.
- Abstract(参考訳): ポイントクラウドベースの大規模位置認識は、同時ローカライゼーションやマッピング(SLAM)など、多くのアプリケーションに欠かせない。
従来の手法は短距離の局所特徴を学習することで良好な性能を得たが、長い範囲の文脈特性は長い間無視されてきた。
そしてモデルのサイズは、さらなる普及のボトルネックになっている。
本稿では,大規模位置認識のための超軽量ネットワークSVTNetを提案する。
本研究では,高効率な3Dスパース変換(SP-Conv),AtomベースのスパースVoxel変換(ASVT),クラスタベースのスパースVoxel変換(CSVT)を用いて,短距離局所特徴と長距離コンテキスト特徴の両方を学習する。
ASVTとCSVTを組み合わせたSVT-Netは,超軽量モデルサイズ(0.9M)の精度と速度の両面で,最先端の性能を実現することができる。
ASVT-NetとCSVT-Netと名付けられたSVT-Netの2つの簡易版も導入された。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Scattering Vision Transformer: Spectral Mixing Matters [3.0665715162712837]
本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークが組み込まれており、複雑な画像の詳細をキャプチャすることができる。
SVTはImageNetデータセットの最先端のパフォーマンスを達成し、多くのパラメータとFLOPSを大幅に削減した。
論文 参考訳(メタデータ) (2023-11-02T15:24:23Z) - ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision
Transformer on Diverse Mobile Devices [15.489158878599383]
非常に大きな検索空間上で高品質なViTスーパーネットをトレーニングする2段階NASアプローチであるElasticViTを提案する。
本稿では,複雑性を意識したサンプリングと性能を意識したサンプリングという2つの新しいサンプリング手法を提案する。
我々のモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を6000万から800万のFLOPから、余分なリトレーニングなしで達成している。
論文 参考訳(メタデータ) (2023-03-17T02:19:28Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Locality Guidance for Improving Vision Transformers on Tiny Datasets [17.352384588114838]
ビジョントランスフォーマー(VT)アーキテクチャはコンピュータビジョンではトレンドになりつつあるが、純粋なVTモデルは小さなデータセットではパフォーマンスが悪い。
本稿では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
論文 参考訳(メタデータ) (2022-07-20T16:41:41Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。