論文の概要: OO-dMVMT: A Deep Multi-view Multi-task Classification Framework for
Real-time 3D Hand Gesture Classification and Segmentation
- arxiv url: http://arxiv.org/abs/2304.05956v1
- Date: Wed, 12 Apr 2023 16:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:26:05.662820
- Title: OO-dMVMT: A Deep Multi-view Multi-task Classification Framework for
Real-time 3D Hand Gesture Classification and Segmentation
- Title(参考訳): oo-dmvmt:リアルタイム3次元ハンドジェスチャ分類とセグメンテーションのための深層マルチビューマルチタスク分類フレームワーク
- Authors: Federico Cunico, Federico Girella, Andrea Avogaro, Marco Emporio,
Andrea Giachetti and Marco Cristani
- Abstract要約: オンオフ深層多視点マルチタスクパラダイム(OO-dMVMT)を提案する。
このアイデアは、ポーズや動きに関連する複数の時間的ローカルなビューを利用して、豊かなジェスチャー記述を生成する。
OO-dMVMTは, 動作の分類精度, セグメンテーション精度, 偽陽性, 決定遅延の観点から, リアルタイム動作を維持しながら, 連続・オンライン3次元骨格に基づくジェスチャー認識の新しいSotAを定義する。
- 参考スコア(独自算出の注目度): 5.715155330490001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous mid-air hand gesture recognition based on captured hand pose
streams is fundamental for human-computer interaction, particularly in AR / VR.
However, many of the methods proposed to recognize heterogeneous hand gestures
are tested only on the classification task, and the real-time low-latency
gesture segmentation in a continuous stream is not well addressed in the
literature. For this task, we propose the On-Off deep Multi-View Multi-Task
paradigm (OO-dMVMT). The idea is to exploit multiple time-local views related
to hand pose and movement to generate rich gesture descriptions, along with
using heterogeneous tasks to achieve high accuracy. OO-dMVMT extends the
classical MVMT paradigm, where all of the multiple tasks have to be active at
each time, by allowing specific tasks to switch on/off depending on whether
they can apply to the input. We show that OO-dMVMT defines the new SotA on
continuous/online 3D skeleton-based gesture recognition in terms of gesture
classification accuracy, segmentation accuracy, false positives, and decision
latency while maintaining real-time operation.
- Abstract(参考訳): キャプチャーされた手ポーズストリームに基づく連続的中空手ジェスチャー認識は、特にAR/VRにおいて、人間とコンピュータのインタラクションに不可欠である。
しかし,不均質な手振りを識別する手法の多くは分類タスクでのみテストされ,連続ストリームでのリアルタイム低遅延ジェスチャーセグメンテーションは文献ではあまり解決されていない。
そこで本研究では,OFF(On-Off Deep Multi-View Multi-Task paradigm)を提案する。
ハンドポーズやムーブメントに関連する複数の時間的視点を活用して、ヘテロジニアスなタスクを用いて高精度なジェスチャー記述を生成する。
OO-dMVMTは古典的なMVMTパラダイムを拡張しており、入力に適用できるかどうかに応じて、特定のタスクをオン/オフにすることで、複数のタスクが毎回アクティブでなければならない。
OO-dMVMTは,動作の分類精度,セグメンテーション精度,偽陽性,決定遅延の両面から連続・オンライン3次元骨格に基づくジェスチャー認識における新しいSotAを定義する。
関連論文リスト
- Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Multi-Task and Multi-Modal Learning for RGB Dynamic Gesture Recognition [12.084948658382679]
本稿では,2次元畳み込みニューラルネットワークの学習におけるエンドツーエンドのマルチタスク学習フレームワークを提案する。
このフレームワークは、深度モダリティを使用して、トレーニング中の精度を改善し、推論中のRGBモダリティのみを使用することでコストを削減できる。
Multi-Scale-Decoderというプラグイン・アンド・プレイモジュールはジェスチャーのセグメンテーションを実現するために設計されている。
論文 参考訳(メタデータ) (2021-10-29T09:22:39Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Two-stream Fusion Model for Dynamic Hand Gesture Recognition using
3D-CNN and 2D-CNN Optical Flow guided Motion Template [0.0]
動き手の適切な検出と追跡が困難になるのは 手の形状や大きさの異なるためです
本研究は,手動認識のための2ストリーム融合モデルと,光学的フローに基づくコンパクトで効率的な動作テンプレートを提案する。
論文 参考訳(メタデータ) (2020-07-17T09:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。