論文の概要: Multi-Task and Multi-Modal Learning for RGB Dynamic Gesture Recognition
- arxiv url: http://arxiv.org/abs/2110.15639v1
- Date: Fri, 29 Oct 2021 09:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:31:47.579931
- Title: Multi-Task and Multi-Modal Learning for RGB Dynamic Gesture Recognition
- Title(参考訳): RGB動的ジェスチャー認識のためのマルチタスクとマルチモーダル学習
- Authors: Dinghao Fan, Hengjie Lu, Shugong Xu, Shan Cao
- Abstract要約: 本稿では,2次元畳み込みニューラルネットワークの学習におけるエンドツーエンドのマルチタスク学習フレームワークを提案する。
このフレームワークは、深度モダリティを使用して、トレーニング中の精度を改善し、推論中のRGBモダリティのみを使用することでコストを削減できる。
Multi-Scale-Decoderというプラグイン・アンド・プレイモジュールはジェスチャーのセグメンテーションを実現するために設計されている。
- 参考スコア(独自算出の注目度): 12.084948658382679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture recognition is getting more and more popular due to various
application possibilities in human-machine interaction. Existing multi-modal
gesture recognition systems take multi-modal data as input to improve accuracy,
but such methods require more modality sensors, which will greatly limit their
application scenarios. Therefore we propose an end-to-end multi-task learning
framework in training 2D convolutional neural networks. The framework can use
the depth modality to improve accuracy during training and save costs by using
only RGB modality during inference. Our framework is trained to learn a
representation for multi-task learning: gesture segmentation and gesture
recognition. Depth modality contains the prior information for the location of
the gesture. Therefore it can be used as the supervision for gesture
segmentation. A plug-and-play module named Multi-Scale-Decoder is designed to
realize gesture segmentation, which contains two sub-decoder. It is used in the
lower stage and higher stage respectively, and can help the network pay
attention to key target areas, ignore irrelevant information, and extract more
discriminant features. Additionally, the MSD module and depth modality are only
used in the training stage to improve gesture recognition performance. Only RGB
modality and network without MSD are required during inference. Experimental
results on three public gesture recognition datasets show that our proposed
method provides superior performance compared with existing gesture recognition
frameworks. Moreover, using the proposed plug-and-play MSD in other 2D
CNN-based frameworks also get an excellent accuracy improvement.
- Abstract(参考訳): 人間と機械の相互作用における様々な応用可能性のために、ジェスチャー認識はますます人気が高まっている。
既存のマルチモーダルジェスチャ認識システムは、入力としてマルチモーダルデータを取り込み精度を向上させるが、そのような方法はより多くのモーダルセンサを必要とし、アプリケーションのシナリオを大幅に制限する。
そこで我々は,2次元畳み込みニューラルネットワークの学習におけるエンドツーエンドのマルチタスク学習フレームワークを提案する。
このフレームワークは、深度モダリティを使用して、トレーニング中の精度を改善し、推論中のRGBモダリティのみを使用することでコストを削減できる。
本フレームワークは,ジェスチャーセグメンテーションとジェスチャー認識というマルチタスク学習の表現を学ぶために訓練されている。
深さモダリティには、ジェスチャーの位置に関する事前情報が含まれている。
そのため、ジェスチャーセグメンテーションの監督として使用できる。
マルチスケールデコーダと呼ばれるプラグアンドプレイモジュールは2つのサブデコーダを含むジェスチャーセグメンテーションを実現するように設計されている。
下段と上段のそれぞれで使用され、ネットワークが主要なターゲット領域に注意を向け、無関係な情報を無視し、より差別的な特徴を抽出するのに役立つ。
さらに、MSDモジュールと深度変調は、ジェスチャー認識性能を向上させるためにトレーニング段階でのみ使用される。
推論中に必要となるのは RGB のモダリティと MSD のないネットワークのみである。
3つの公開ジェスチャ認識データセットの実験結果から,提案手法は既存のジェスチャ認識フレームワークと比較して優れた性能を示すことが示された。
さらに、他の2D CNNベースのフレームワークで提案されたプラグイン&プレイMSDを使用することで、精度が向上する。
関連論文リスト
- Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition [11.918982714404025]
本稿では,新たにやってくる各モダリティを継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。
我々は,識別的・情報的特徴を地図化するために,累積クロスモーダルマッピング・プロンプト(ACMP)を開発した。
Drive&Actデータセットで行った実験は、ユニモーダルドライバとマルチモーダルドライバの両方でCM2-Netの性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T08:57:00Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。