論文の概要: Anchors Based Method for Fingertips Position Estimation from a Monocular
RGB Image using Deep Neural Network
- arxiv url: http://arxiv.org/abs/2005.01351v2
- Date: Thu, 14 May 2020 06:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:42:08.107150
- Title: Anchors Based Method for Fingertips Position Estimation from a Monocular
RGB Image using Deep Neural Network
- Title(参考訳): ディープニューラルネットワークを用いた単眼rgb画像からの指先位置推定のためのアンカーベース手法
- Authors: Purnendu Mishra and Kishor Sarawadekar
- Abstract要約: 本稿では,指先の位置を推定するディープニューラルネットワークに基づく手法を提案する。
提案フレームワークは,手の検出結果に限られた依存度で最善を尽くす。
SCUT-Ego-Gestureデータセットの実験では、ビデオフレーム上の2.3552ピクセルの指先検出誤差を640倍の480$で達成した。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Virtual, augmented, and mixed reality, the use of hand gestures is
increasingly becoming popular to reduce the difference between the virtual and
real world. The precise location of the fingertip is essential/crucial for a
seamless experience. Much of the research work is based on using depth
information for the estimation of the fingertips position. However, most of the
work using RGB images for fingertips detection is limited to a single finger.
The detection of multiple fingertips from a single RGB image is very
challenging due to various factors. In this paper, we propose a deep neural
network (DNN) based methodology to estimate the fingertips position. We
christened this methodology as an Anchor based Fingertips Position Estimation
(ABFPE), and it is a two-step process. The fingertips location is estimated
using regression by computing the difference in the location of a fingertip
from the nearest anchor point. The proposed framework performs the best with
limited dependence on hand detection results. In our experiments on the
SCUT-Ego-Gesture dataset, we achieved the fingertips detection error of 2.3552
pixels on a video frame with a resolution of $640 \times 480$ and about
$92.98\%$ of test images have average pixel errors of five pixels.
- Abstract(参考訳): 仮想、拡張現実、混合現実では、仮想世界と現実世界の違いを減らすために、手振りの使用がますます人気になっている。
指先の正確な位置は、シームレスな体験に欠かせない。
研究の多くは,指先位置推定のための深度情報の利用に基づいている。
しかし、指先検出にRGB画像を使用する作業のほとんどは、1本の指に限られている。
一つのRGB画像から複数の指先を検出することは、様々な要因により非常に困難である。
本稿では,指先の位置を推定するディープニューラルネットワーク(DNN)に基づく手法を提案する。
我々は、この方法論をアンカーベースのFingertips Position Estimation (ABFPE)と命名し、2段階のプロセスとした。
最寄りのアンカーポイントから指先の位置の差を計算することにより、レグレッションを用いて指先位置を推定する。
提案フレームワークは,手の検出結果に限られた依存度で最善を尽くす。
SCUT-Ego-Gestureデータセットの実験では、ビデオフレーム上の2.3552ピクセルの指先検出誤差を640 \times 480$と約92.98\%の解像度で達成した。
関連論文リスト
- Learning to Make Keypoints Sub-Pixel Accurate [80.55676599677824]
本研究は,2次元局所特徴の検出におけるサブピクセル精度の課題に対処する。
本稿では,検出された特徴に対するオフセットベクトルを学習することにより,サブピクセル精度で検出器を拡張できる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:39:56Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - SPSN: Superpixel Prototype Sampling Network for RGB-D Salient Object
Detection [5.2134203335146925]
近年,RGB-D Salient Object Detection (SOD) が注目されている。
深層学習手法の進歩にもかかわらず、RGB-D SODは、RGB画像と深度マップと低品質深度マップとの間に大きな領域ギャップがあるため、依然として困難である。
本稿では,この問題を解決するために,新しいスーパーピクセルプロトタイプサンプリングネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-16T10:43:14Z) - Learning Weighting Map for Bit-Depth Expansion within a Rational Range [64.15915577164894]
ビット深化(BDE)は、低ビット深化(LBD)ソースから高ビット深化(HBD)画像を表示する新興技術の1つである。
既存のBDEメソッドは、様々なBDE状況に対して統一的なソリューションを持っていない。
我々は,各画素の重みを求めるためにビット復元ネットワーク(BRNet)を設計し,補充値の比率を合理的範囲内で示す。
論文 参考訳(メタデータ) (2022-04-26T02:27:39Z) - Single image deep defocus estimation and its applications [82.93345261434943]
画像パッチを20レベルの曖昧さの1つに分類するために、ディープニューラルネットワークをトレーニングします。
トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。
その結果、デフォーカスマップは各ピクセルのぼやけた度合いの情報を運ぶ。
論文 参考訳(メタデータ) (2021-07-30T06:18:16Z) - A deep-learning--based multimodal depth-aware dynamic hand gesture
recognition system [5.458813674116228]
深度定量化画像ハンドスケルトン関節点を用いたダイナミックハンドジェスチャ認識(DHG)に着目した。
特に,CNNとリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を用いたマルチモーダル核融合ネットワークにおける深度量子化の効果について検討する。
論文 参考訳(メタデータ) (2021-07-06T11:18:53Z) - RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images [42.68340286459079]
一般的な対象把握はロボティクスの分野では重要だが未解決の問題である。
RGBD-Graspは、7-DoFグリップ検出を2つのサブタスクに分離することでこの問題を解決するパイプラインである。
GraspNet-1Billionデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-03-03T05:12:20Z) - A Unified Learning Approach for Hand Gesture Recognition and Fingertip
Detection [3.145455301228176]
提案アルゴリズムは1つのネットワークを用いて指のクラスと指先の位置の確率を予測する。
提案手法は, 直接回帰法に比べ, 画素誤差を著しく低減する。
論文 参考訳(メタデータ) (2021-01-06T14:05:13Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。