論文の概要: BPT: Binary Point Cloud Transformer for Place Recognition
- arxiv url: http://arxiv.org/abs/2303.01166v1
- Date: Thu, 2 Mar 2023 11:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:58:05.039414
- Title: BPT: Binary Point Cloud Transformer for Place Recognition
- Title(参考訳): BPT: 位置認識のためのバイナリポイントクラウドトランス
- Authors: Zhixing Hou, Yuzhang Shang, Tian Gao, Yan Yan
- Abstract要約: 位置認識のための二元点雲変換器を提案する。
32ビットの完全精度モデルは、メモリ占有が少なく、より高速な二項化ビット演算が可能な1ビットモデルに還元することができる。
いくつかの標準ベンチマーク実験により,提案手法は対応する完全精度変圧器モデルと同等の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 30.749570675511386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Place recognition, an algorithm to recognize the re-visited places, plays the
role of back-end optimization trigger in a full SLAM system. Many works
equipped with deep learning tools, such as MLP, CNN, and transformer, have
achieved great improvements in this research field. Point cloud transformer is
one of the excellent frameworks for place recognition applied in robotics, but
with large memory consumption and expensive computation, it is adverse to
widely deploy the various point cloud transformer networks in mobile or
embedded devices. To solve this issue, we propose a binary point cloud
transformer for place recognition. As a result, a 32-bit full-precision model
can be reduced to a 1-bit model with less memory occupation and faster
binarized bitwise operations. To our best knowledge, this is the first binary
point cloud transformer that can be deployed on mobile devices for online
applications such as place recognition. Experiments on several standard
benchmarks demonstrate that the proposed method can get comparable results with
the corresponding full-precision transformer model and even outperform some
full-precision deep learning methods. For example, the proposed method achieves
93.28% at the top @1% and 85.74% at the top @1% on the Oxford RobotCar dataset
in terms of the metric of the average recall rate. Meanwhile, the size and
floating point operations of the model with the same transformer structure
reduce 56.1% and 34.1% respectively from original precision to binary
precision.
- Abstract(参考訳): 再訪問した場所を認識するアルゴリズムであるplace recognitionは、フルスラムシステムにおいてバックエンド最適化トリガーの役割を担っている。
MLP, CNN, トランスフォーマーなどの深層学習ツールを備えた多くの研究が, この研究分野において大きな進歩を遂げている。
ポイントクラウドトランスフォーマーはロボット工学における位置認識の優れたフレームワークの1つであるが、大きなメモリ消費と高価な計算量を持つため、様々なポイントクラウドトランスフォーマーネットワークをモバイルや組み込みデバイスに広く展開することは有害である。
そこで本研究では,位置認識のための二点雲変換器を提案する。
その結果、32ビットのフル精度モデルは、メモリ占有量が少なく、ビット単位で高速な1ビットモデルに還元できる。
私たちの知る限り、これはplace recognitionなどのオンラインアプリケーション用のモバイルデバイスにデプロイ可能な、最初のバイナリポイントクラウドトランスフォーマーです。
いくつかの標準ベンチマークの実験では、提案手法は対応する完全精度変換器モデルと同等の結果を得ることができ、さらにいくつかの完全精度深層学習法より優れていることが示されている。
例えば、提案手法では、平均リコールレートの指標として、トップ@1%で93.28%、トップ@1%で85.74%を達成している。
一方、同じ変圧器構造を持つモデルのサイズと浮動小数点演算は、元の精度からバイナリ精度までそれぞれ56.1%、34.1%減少する。
関連論文リスト
- How Redundant Is the Transformer Stack in Speech Representation Models? [1.3873323883842132]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。
近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。
後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-10T11:00:24Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Applying Plain Transformers to Real-World Point Clouds [0.0]
この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
誘導バイアスの欠如による性能ギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前訓練について検討した。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
論文 参考訳(メタデータ) (2023-02-28T21:06:36Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。