論文の概要: Vision Transformer with Convolutional Encoder-Decoder for Hand Gesture
Recognition using 24 GHz Doppler Radar
- arxiv url: http://arxiv.org/abs/2209.05032v1
- Date: Mon, 12 Sep 2022 05:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:15:41.205628
- Title: Vision Transformer with Convolutional Encoder-Decoder for Hand Gesture
Recognition using 24 GHz Doppler Radar
- Title(参考訳): 24GHzドップラーレーダを用いた手指ジェスチャー認識のための畳み込みエンコーダデコーダを用いた視覚変換器
- Authors: Kavinda Kehelella, Gayangana Leelarathne, Dhanuka Marasinghe, Nisal
Kariyawasam, Viduneth Ariyarathna, Arjuna Madanayake, Ranga Rodrigo, Chamira
U. S. Edussooriya
- Abstract要約: 手のジェスチャー認識のための視覚変換器に基づくアーキテクチャを提案する。
提案アーキテクチャは、畳み込みエンコーダデコーダ(convolutional encoderdecoder)、3つのトランスフォーマー層を持つアテンションモジュール( attention module)、多層パーセプトロン(multi-layer perceptron)の3つのモジュールから構成される。
提案したアーキテクチャは98.3%の精度を達成し、使用済みデータセットの最先端性を大幅に上回っている。
- 参考スコア(独自算出の注目度): 1.8868441545853922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers combined with convolutional encoders have been recently used for
hand gesture recognition (HGR) using micro-Doppler signatures. We propose a
vision-transformer-based architecture for HGR with multi-antenna
continuous-wave Doppler radar receivers. The proposed architecture consists of
three modules: a convolutional encoderdecoder, an attention module with three
transformer layers, and a multi-layer perceptron. The novel convolutional
decoder helps to feed patches with larger sizes to the attention module for
improved feature extraction. Experimental results obtained with a dataset
corresponding to a two-antenna continuous-wave Doppler radar receiver operating
at 24 GHz (published by Skaria et al.) confirm that the proposed architecture
achieves an accuracy of 98.3% which substantially surpasses the
state-of-the-art on the used dataset.
- Abstract(参考訳): 畳み込みエンコーダと組み合わされた変換器は、最近マイクロドップラーシグネチャを用いた手動ジェスチャー認識(HGR)に使われている。
マルチアンテナ連続波ドップラーレーダを用いたHGR用視覚変換器アーキテクチャを提案する。
提案するアーキテクチャは,畳み込みエンコーダデコーダ,3つのトランスフォーマー層を持つアテンションモジュール,多層パーセプトロンの3つのモジュールで構成される。
新たな畳み込みデコーダは、より大きなサイズのパッチをアテンションモジュールに供給し、機能抽出を改善する。
24GHzの2アンテナ連続波ドップラーレー受波機(Skariaら)に対応するデータセットを用いて得られた実験結果から,提案アーキテクチャが98.3%の精度を達成し,使用済みデータセットの最先端性を大幅に上回ることを確認した。
関連論文リスト
- Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - G3R: Generating Rich and Fine-grained mmWave Radar Data from 2D Videos for Generalized Gesture Recognition [19.95047010486547]
我々は、リッチな2Dビデオを利用してリアルなレーダデータを生成するソフトウェアパイプラインを開発した。
ユーザジェスチャの多彩できめ細かな反射特性をシミュレートする課題に対処する。
我々は、公開データソースと自己収集現実レーダデータからの2Dビデオを用いて、G3Rを実装し、評価する。
論文 参考訳(メタデータ) (2024-04-23T11:22:59Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Image Reconstruction for Accelerated MR Scan with Faster Fourier
Convolutional Neural Networks [87.87578529398019]
部分走査は、磁気共鳴イメージング(MRI)データ取得を2次元および3次元の両方で加速する一般的な手法である。
本稿では,Faster Fourier Convolution (FasterFC) と呼ばれる新しい畳み込み演算子を提案する。
2次元加速MRI法であるFasterFC-End-to-End-VarNetは、FasterFCを用いて感度マップと再構成品質を改善する。
k空間領域再構成を誘導する単一グループアルゴリズムを用いたFasterFC-based Single-to-group Network (FAS-Net) と呼ばれる3次元加速MRI法
論文 参考訳(メタデータ) (2023-06-05T13:53:57Z) - T-FFTRadNet: Object Detection with Swin Vision Transformers from Raw ADC
Radar Signals [0.0]
周波数変調連続波レーダを用いた物体検出は、自律システムの分野でますます人気が高まっている。
レーダーは、LiDARのような他の放射型センサーで見られるような欠点を持っておらず、主に雨や雪などの気象条件による帰還信号の劣化や損失がある。
本稿では,レーダ物体検出の分野に階層型スウィンビジョントランスフォーマーを導入し,前処理で異なる入力に対して,異なるレーダ構成で操作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-29T18:04:19Z) - mm-Wave Radar Hand Shape Classification Using Deformable Transformers [0.46007387171990594]
リアルタイム・ミリ波レーダを用いた静的手形分類アルゴリズムと実装を提案する。
この手法は60Ghzレーダをセンサ入力として使用し、低コストかつプライバシーに敏感なタッチレス制御技術にいくつかの応用を見出した。
論文 参考訳(メタデータ) (2022-10-24T09:56:11Z) - DEFORM: A Practical, Universal Deep Beamforming System [4.450750414447688]
我々は、ユニバーサルレシーバービームフォーミング技術を紹介し、設計し、評価する。
我々のアプローチとシステムDEFORMは、深層学習(DL)ベースのRXビームフォーミングであり、マルチアンテナRF受信機において大きな利益をもたらす。
論文 参考訳(メタデータ) (2022-03-18T03:52:18Z) - Attention-based Dual-stream Vision Transformer for Radar Gait
Recognition [24.90100456414406]
レーダー歩行認識は、光の変動に頑丈で、プライバシーに対する侵害も少ない。
本研究では、注意に基づく融合を伴う2重ストリームニューラルネットワークを提案し、識別情報を完全集約する。
提案手法は,レーダ歩行認識のための大規模なベンチマークデータセット上で検証され,最先端のソリューションよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-11-24T06:16:53Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。