論文の概要: MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2409.03890v1
- Date: Thu, 5 Sep 2024 19:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:30:22.586743
- Title: MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition
- Title(参考訳): MVTN ハンドジェスチャ認識のためのマルチスケールビデオトランスネットワーク
- Authors: Mallika Garg, Debashis Ghosh, Pyari Mohan Pradhan,
- Abstract要約: ダイナミックハンドジェスチャ認識のための新しいMultiscale Video Transformer Network(MVTN)を提案する。
提案モデルでは,手動動作における細部やコンテキストの多様なレベルを捉えるために,マルチスケールの特徴階層が組み込まれている。
実験により,提案したMVTNは計算量やパラメータを少なくして最先端の計算結果が得られることが示された。
- 参考スコア(独自算出の注目度): 5.311735227179715
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we introduce a novel Multiscale Video Transformer Network (MVTN) for dynamic hand gesture recognition, since multiscale features can extract features with variable size, pose, and shape of hand which is a challenge in hand gesture recognition. The proposed model incorporates a multiscale feature hierarchy to capture diverse levels of detail and context within hand gestures which enhances the model's ability. This multiscale hierarchy is obtained by extracting different dimensions of attention in different transformer stages with initial stages to model high-resolution features and later stages to model low-resolution features. Our approach also leverages multimodal data, utilizing depth maps, infrared data, and surface normals along with RGB images from NVGesture and Briareo datasets. Experiments show that the proposed MVTN achieves state-of-the-art results with less computational complexity and parameters. The source code is available at https://github.com/mallikagarg/MVTN.
- Abstract(参考訳): 本稿では,手動ジェスチャー認識における課題である,手動ジェスチャー認識において,手動ジェスチャー認識の課題となる,手動動作の大きさ,ポーズ,形状の異なる特徴を抽出できる,動的手動ジェスチャー認識のための新しいMultiscale Video Transformer Network(MVTN)を提案する。
提案モデルでは,多段階の特徴階層が組み込まれ,手動作における細部や文脈の多様さを把握し,モデルの能力を高める。
このマルチスケール階層は、低解像度特徴をモデル化するための初期ステージと、低解像度特徴をモデル化するための後期ステージとで、異なる変圧器段階の異なる注意次元を抽出することによって得られる。
また,NVGesture や Briareo のデータセットからの RGB 画像とともに,深度マップ,赤外データ,表面正規化を利用したマルチモーダルデータも活用する。
実験の結果,提案したMVTNは計算量やパラメータを少なくして最先端の計算結果が得られることがわかった。
ソースコードはhttps://github.com/mallikagarg/MVTNで入手できる。
関連論文リスト
- GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition [5.311735227179715]
トランスフォーマーモデルは、NLPや分類など、多くのアプリケーションで最先端の結果を得た。
動的手ジェスチャー認識のための新しいGestFormerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-18T05:16:32Z) - MMViT: Multiscale Multiview Vision Transformers [36.93551299085767]
本稿では,マルチスケール・マルチビュー・ビジョン・トランスフォーマ (MMViT) を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-28T21:51:41Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Parallel mesh reconstruction streams for pose estimation of interacting
hands [2.0305676256390934]
単一のRGB画像から手動ポーズ推定を行うマルチストリーム3Dメッシュ再構成ネットワーク(MSMR-Net)を提案する。
我々のモデルは、画像エンコーダと、連結グラフ畳み込み層からなるメッシュ畳み込みデコーダからなる。
論文 参考訳(メタデータ) (2021-04-25T10:14:15Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。