論文の概要: FastHand: Fast Hand Pose Estimation From A Monocular Camera
- arxiv url: http://arxiv.org/abs/2102.07067v1
- Date: Sun, 14 Feb 2021 04:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 21:32:07.122657
- Title: FastHand: Fast Hand Pose Estimation From A Monocular Camera
- Title(参考訳): FastHand:モノクロカメラによる手探りの速さ
- Authors: Shan An, Xiajie Zhang, Dong Wei, Haogang Zhu, Jianyu Yang, and
Konstantinos A. Tsintotas
- Abstract要約: ハンドポーズ推定のための高速・高精度なフレームワーク「FastHand」を提案します。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
- 参考スコア(独自算出の注目度): 12.790733588554588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gesture recognition constitutes the initial step in most methods related
to human-robot interaction. There are two key challenges in this task. The
first one corresponds to the difficulty of achieving stable and accurate hand
landmark predictions in real-world scenarios, while the second to the decreased
time of forward inference. In this paper, we propose a fast and accurate
framework for hand pose estimation, dubbed as "FastHand". Using a lightweight
encoder-decoder network architecture, we achieve to fulfil the requirements of
practical applications running on embedded devices. The encoder consists of
deep layers with a small number of parameters, while the decoder makes use of
spatial location information to obtain more accurate results. The evaluation
took place on two publicly available datasets demonstrating the improved
performance of the proposed pipeline compared to other state-of-the-art
approaches. FastHand offers high accuracy scores while reaching a speed of 25
frames per second on an NVIDIA Jetson TX2 graphics processing unit.
- Abstract(参考訳): ハンドジェスチャ認識は、人間とロボットのインタラクションに関連するほとんどの方法の最初のステップである。
このタスクには2つの重要な課題がある。
最初のものは、現実世界のシナリオにおいて安定かつ正確なハンドランドマーク予測を達成することの難しさと、フォワード推論の減少時間の2番目に対応する。
本論文では「FastHand」と呼ばれるハンドポーズ推定のための高速かつ正確なフレームワークを提案する。
軽量エンコーダ・デコーダネットワークアーキテクチャを用いて,組込みデバイス上で動作する実用的なアプリケーションの要求を満たす。
エンコーダは、少ないパラメータの深い層で構成され、デコーダは、より正確な結果を得るために空間的位置情報を利用する。
この評価は、他の最先端のアプローチと比較して、提案されたパイプラインの性能改善を示す2つの公開データセットで実施された。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
関連論文リスト
- Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need [2.9005223064604078]
サイン言語認識は、一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動作させるためには、堅牢なGPU装備のハードウェアが必要である。
我々はSPOTERアーキテクチャを構築し、これはこのタスクに使用される大規模モデルの性能に近いものである。
論文 参考訳(メタデータ) (2022-09-30T17:30:32Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - SwiftLane: Towards Fast and Efficient Lane Detection [0.8972186395640678]
我々は、軽量でエンドツーエンドのディープラーニングベースのフレームワークであるSwiftLaneと、高速かつ効率的なレーン検出のための行単位の分類定式化を提案する。
提案手法は1秒あたり411フレームの推論速度を実現し,CULaneベンチマークデータセットの精度で比較結果を実現した。
論文 参考訳(メタデータ) (2021-10-22T13:35:05Z) - Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems [13.490605853268837]
移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-24T03:26:08Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - DeepMark++: Real-time Clothing Detection at the Edge [55.41644538483948]
本稿では,迅速な衣服検出とキーポイント推定を実現するための単一ステージアプローチを提案する。
提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。
私たちの最も正確なモデルは、DeepFashion2データセットの最先端ソリューションに匹敵する結果を達成します。
論文 参考訳(メタデータ) (2020-06-01T04:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。