論文の概要: Multiscaled Multi-Head Attention-based Video Transformer Network for Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2501.00935v1
- Date: Wed, 01 Jan 2025 19:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:34.997445
- Title: Multiscaled Multi-Head Attention-based Video Transformer Network for Hand Gesture Recognition
- Title(参考訳): ハンドジェスチャ認識のためのマルチスケールマルチヘッドアテンション型ビデオトランスネットワーク
- Authors: Mallika Garg, Debashis Ghosh, Pyari Mohan Pradhan,
- Abstract要約: MsMHA-VTN(Multiscaled Multi-Head Attention Video Transformer Network)を提案する。
マルチスケール特徴のピラミッド階層をトランスフォーマーのマルチスケールヘッドアテンションモデルを用いて抽出する。
提案されたMsMHA-VTNの総合精度は88.22%、NVGestureとBrareoのデータセットは99.10%である。
- 参考スコア(独自算出の注目度): 5.311735227179715
- License:
- Abstract: Dynamic gesture recognition is one of the challenging research areas due to variations in pose, size, and shape of the signer's hand. In this letter, Multiscaled Multi-Head Attention Video Transformer Network (MsMHA-VTN) for dynamic hand gesture recognition is proposed. A pyramidal hierarchy of multiscale features is extracted using the transformer multiscaled head attention model. The proposed model employs different attention dimensions for each head of the transformer which enables it to provide attention at the multiscale level. Further, in addition to single modality, recognition performance using multiple modalities is examined. Extensive experiments demonstrate the superior performance of the proposed MsMHA-VTN with an overall accuracy of 88.22\% and 99.10\% on NVGesture and Briareo datasets, respectively.
- Abstract(参考訳): 動的ジェスチャー認識はシグナーの手のポーズ、大きさ、形状の変化によって難しい研究領域の1つである。
本稿では,動的ジェスチャー認識のためのマルチスケールマルチヘッドビデオトランスネットワーク(MsMHA-VTN)を提案する。
マルチスケール特徴のピラミッド階層をトランスフォーマーのマルチスケールヘッドアテンションモデルを用いて抽出する。
提案モデルでは,変圧器の各頭部に異なるアテンション次元を用いて,マルチスケールレベルでのアテンションを提供する。
さらに, 単一モダリティに加えて, 複数のモダリティを用いた認識性能についても検討した。
大規模な実験では、提案されたMsMHA-VTNの総合精度は88.22\%と99.10\%である。
関連論文リスト
- MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition [5.311735227179715]
ダイナミックハンドジェスチャ認識のための新しいMultiscale Video Transformer Network(MVTN)を提案する。
提案モデルでは,手動動作における細部やコンテキストの多様なレベルを捉えるために,マルチスケールの特徴階層が組み込まれている。
実験により,提案したMVTNは計算量やパラメータを少なくして最先端の計算結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-05T19:55:38Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MMViT: Multiscale Multiview Vision Transformers [36.93551299085767]
本稿では,マルチスケール・マルチビュー・ビジョン・トランスフォーマ (MMViT) を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-28T21:51:41Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。