論文の概要: IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition
- arxiv url: http://arxiv.org/abs/2005.02134v2
- Date: Tue, 20 Oct 2020 14:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 19:06:01.424799
- Title: IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition
- Title(参考訳): IPNハンド:リアルタイム連続手指ジェスチャー認識のためのビデオデータセットとベンチマーク
- Authors: Gibran Benitez-Garcia, Jesus Olivares-Mercado, Gabriel Sanchez-Perez,
and Keiji Yanai
- Abstract要約: 我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
- 参考スコア(独自算出の注目度): 11.917058689674327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new benchmark dataset named IPN Hand with
sufficient size, variety, and real-world elements able to train and evaluate
deep neural networks. This dataset contains more than 4,000 gesture samples and
800,000 RGB frames from 50 distinct subjects. We design 13 different static and
dynamic gestures focused on interaction with touchless screens. We especially
consider the scenario when continuous gestures are performed without transition
states, and when subjects perform natural movements with their hands as
non-gesture actions. Gestures were collected from about 30 diverse scenes, with
real-world variation in background and illumination. With our dataset, the
performance of three 3D-CNN models is evaluated on the tasks of isolated and
continuous real-time HGR. Furthermore, we analyze the possibility of increasing
the recognition accuracy by adding multiple modalities derived from RGB frames,
i.e., optical flow and semantic segmentation, while keeping the real-time
performance of the 3D-CNN model. Our empirical study also provides a comparison
with the publicly available nvGesture (NVIDIA) dataset. The experimental
results show that the state-of-the-art ResNext-101 model decreases about 30%
accuracy when using our real-world dataset, demonstrating that the IPN Hand
dataset can be used as a benchmark, and may help the community to step forward
in the continuous HGR. Our dataset and pre-trained models used in the
evaluation are publicly available at https://github.com/GibranBenitez/IPN-hand.
- Abstract(参考訳): 本稿では,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを提案する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
タッチレススクリーンとのインタラクションに焦点を当てた,13種類の静的および動的ジェスチャーを設計する。
特に、連続的なジェスチャーを遷移状態なしで行う場合や、被験者が手で自然な動作を行う場合のシナリオについて考察する。
ジェスチャは30の多様なシーンから集められ、背景と照明の現実的なバリエーションがある。
本研究では, 3つの3d-cnnモデルの性能を, 分離および連続リアルタイムhgrのタスクで評価する。
さらに、3D-CNNモデルのリアルタイム性能を維持しつつ、RGBフレーム、すなわち光フローとセマンティックセグメンテーションから派生した複数のモーダルを付加することにより、認識精度を高める可能性を分析する。
私たちの経験的研究は、公開されているnvGesture(NVIDIA)データセットとの比較も提供しています。
実験の結果,最先端のResNext-101モデルでは実世界のデータセットを使用すると約30%の精度が低下し,IPN Handデータセットがベンチマークとして使用でき,コミュニティの継続的なHGRへの進出に役立つことが示された。
評価で使用されるデータセットと事前トレーニングされたモデルは、https://github.com/GibranBenitez/IPN-handで公開されています。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。
各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。
TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文 参考訳(メタデータ) (2023-07-03T13:58:20Z) - Explicit Context Integrated Recurrent Neural Network for Sensor Data
Applications [0.0]
Context Integrated RNN (CiRNN) は、コンテキスト特徴の形式で表現された明示的なコンテキストの統合を可能にする。
実験では、最先端モデルよりもそれぞれ39%と87%の改善が見られた。
論文 参考訳(メタデータ) (2023-01-12T13:58:56Z) - Comparison of Data Representations and Machine Learning Architectures
for User Identification on Arbitrary Motion Sequences [8.967985264567217]
本稿では,頭部と手の動きの任意のシーケンスに基づいて,異なる機械学習手法を用いてユーザを識別する。
すべてのコードを公開して、将来の作業のベースラインを提供しています。
このモデルは、150秒以内の精度で、34人の被験者のどれかを正確に識別する。
論文 参考訳(メタデータ) (2022-10-02T14:12:10Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Decoding ECoG signal into 3D hand translation using deep learning [3.20238141000059]
運動脳-コンピュータインターフェース(Motor Brain-Computer Interface、BCI)は、運動障害者が環境と対話できる技術である。
連続手の動きを予測するために使用されるほとんどのECoG信号デコーダは線形モデルである。
多くの問題において最先端のディープラーニングモデルは、この関係をよりよく捉えるための解決策になり得る。
論文 参考訳(メタデータ) (2021-10-05T15:41:04Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution [3.3502165500990824]
本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。
WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。
私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
論文 参考訳(メタデータ) (2021-04-19T02:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。