論文の概要: Two-stream Fusion Model for Dynamic Hand Gesture Recognition using
3D-CNN and 2D-CNN Optical Flow guided Motion Template
- arxiv url: http://arxiv.org/abs/2007.08847v1
- Date: Fri, 17 Jul 2020 09:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:41:53.872431
- Title: Two-stream Fusion Model for Dynamic Hand Gesture Recognition using
3D-CNN and 2D-CNN Optical Flow guided Motion Template
- Title(参考訳): 3D-CNNと2D-CNN光フロー誘導動作テンプレートを用いた動的手指認識のための2ストリーム融合モデル
- Authors: Debajit Sarma, V. Kavyasree and M.K. Bhuyan
- Abstract要約: 動き手の適切な検出と追跡が困難になるのは 手の形状や大きさの異なるためです
本研究は,手動認識のための2ストリーム融合モデルと,光学的フローに基づくコンパクトで効率的な動作テンプレートを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The use of hand gestures can be a useful tool for many applications in the
human-computer interaction community. In a broad range of areas hand gesture
techniques can be applied specifically in sign language recognition, robotic
surgery, etc. In the process of hand gesture recognition, proper detection, and
tracking of the moving hand become challenging due to the varied shape and size
of the hand. Here the objective is to track the movement of the hand
irrespective of the shape, size, and color of the hand. And, for this, a motion
template guided by optical flow (OFMT) is proposed. OFMT is a compact
representation of the motion information of a gesture encoded into a single
image. In the experimentation, different datasets using bare hand with an open
palm, and folded palm wearing green-glove are used, and in both cases, we could
generate the OFMT images with equal precision. Recently, deep network-based
techniques have shown impressive improvements as compared to conventional
hand-crafted feature-based techniques. Moreover, in the literature, it is seen
that the use of different streams with informative input data helps to increase
the performance in the recognition accuracy. This work basically proposes a
two-stream fusion model for hand gesture recognition and a compact yet
efficient motion template based on optical flow. Specifically, the two-stream
network consists of two layers: a 3D convolutional neural network (C3D) that
takes gesture videos as input and a 2D-CNN that takes OFMT images as input. C3D
has shown its efficiency in capturing spatio-temporal information of a video.
Whereas OFMT helps to eliminate irrelevant gestures providing additional motion
information. Though each stream can work independently, they are combined with
a fusion scheme to boost the recognition results. We have shown the efficiency
of the proposed two-stream network on two databases.
- Abstract(参考訳): ハンドジェスチャの使用は、人間とコンピュータの相互作用コミュニティにおける多くのアプリケーションにとって有用なツールである。
広い範囲において手のジェスチャー技術は特に手話認識やロボット手術などに応用できる。
手のジェスチャー認識の過程では,手の形状や大きさの異なるため,動作中の手の適切な検出と追跡が困難になる。
ここでの目的は、手の形状、大きさ、色に関係なく手の動きを追跡することである。
そこで,光学的流れ (OFMT) によって導かれる動作テンプレートを提案する。
OFMTは、単一の画像に符号化されたジェスチャーの動作情報のコンパクトな表現である。
実験では, 手のひらを開放したベアハンドを用いたデータセットと, グリーングローブを装着した折りたたみ型パームを用い, いずれの場合においても, 同一精度でofmt画像を生成することができた。
近年,従来の手作り機能ベース技術と比較して,ディープネットワークベースの技術は印象的な改善を遂げている。
さらに,本論文では,情報入力データを用いた異なるストリームの利用により,認識精度の向上が期待できる。
本研究は,手動認識のための2ストリーム融合モデルと,光学的フローに基づくコンパクトで効率的な動作テンプレートを提案する。
具体的には、2ストリームネットワークは2つのレイヤで構成されている。3D畳み込みニューラルネットワーク(C3D)はジェスチャービデオを入力として取り、OFMT画像を入力として取り込む2D-CNNである。
C3Dは、ビデオの時空間情報をキャプチャする効率を示した。
OFMTは、追加の動作情報を提供する無関係なジェスチャーを排除するのに役立つ。
各ストリームは独立して動作するが、認識結果を向上するための融合スキームと組み合わせられる。
2つのデータベース上で提案する2ストリームネットワークの効率性を示した。
関連論文リスト
- Hand Gesture Classification Based on Forearm Ultrasound Video Snippets Using 3D Convolutional Neural Networks [2.1301560294088318]
前腕超音波は手の動きに伴う筋形態の変化について詳細な情報を提供しており、手の動きを推定するのに使用できる。
従来の研究は、畳み込みニューラルネットワーク(CNN)などの技術を用いて、2次元(2次元)超音波画像フレームの解析に重点を置いてきた。
本研究は3次元CNNに基づく手法を用いて,ジェスチャー認識のための超音波ビデオセグメント内の時間パターンをキャプチャする。
論文 参考訳(メタデータ) (2024-09-24T19:51:41Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - A deep-learning--based multimodal depth-aware dynamic hand gesture
recognition system [5.458813674116228]
深度定量化画像ハンドスケルトン関節点を用いたダイナミックハンドジェスチャ認識(DHG)に着目した。
特に,CNNとリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を用いたマルチモーダル核融合ネットワークにおける深度量子化の効果について検討する。
論文 参考訳(メタデータ) (2021-07-06T11:18:53Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Understanding the hand-gestures using Convolutional Neural Networks and
Generative Adversial Networks [0.0]
このシステムは、リアルタイムハンドトラッキング、トレーニングジェスチャ、および畳み込みニューラルネットワークを用いたジェスチャー認識の3つのモジュールで構成されている。
アルファベットや数字を含む36のジェスチャーの語彙でテストされ、アプローチの有効性が検証されている。
論文 参考訳(メタデータ) (2020-11-10T02:20:43Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。