論文の概要: Multi-modal Fusion for Single-Stage Continuous Gesture Recognition
- arxiv url: http://arxiv.org/abs/2011.04945v2
- Date: Tue, 24 Aug 2021 06:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:41:59.036222
- Title: Multi-modal Fusion for Single-Stage Continuous Gesture Recognition
- Title(参考訳): 単段連続ジェスチャー認識のためのマルチモーダル融合
- Authors: Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes
- Abstract要約: テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
- 参考スコア(独自算出の注目度): 45.19890687786009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture recognition is a much studied research area which has myriad
real-world applications including robotics and human-machine interaction.
Current gesture recognition methods have focused on recognising isolated
gestures, and existing continuous gesture recognition methods are limited to
two-stage approaches where independent models are required for detection and
classification, with the performance of the latter being constrained by
detection performance. In contrast, we introduce a single-stage continuous
gesture recognition framework, called Temporal Multi-Modal Fusion (TMMF), that
can detect and classify multiple gestures in a video via a single model. This
approach learns the natural transitions between gestures and non-gestures
without the need for a pre-processing segmentation step to detect individual
gestures. To achieve this, we introduce a multi-modal fusion mechanism to
support the integration of important information that flows from multi-modal
inputs, and is scalable to any number of modes. Additionally, we propose
Unimodal Feature Mapping (UFM) and Multi-modal Feature Mapping (MFM) models to
map uni-modal features and the fused multi-modal features respectively. To
further enhance performance, we propose a mid-point based loss function that
encourages smooth alignment between the ground truth and the prediction,
helping the model to learn natural gesture transitions. We demonstrate the
utility of our proposed framework, which can handle variable-length input
videos, and outperforms the state-of-the-art on three challenging datasets:
EgoGesture, IPN hand, and ChaLearn LAP Continuous Gesture Dataset (ConGD).
Furthermore, ablation experiments show the importance of different components
of the proposed framework.
- Abstract(参考訳): ジェスチャー認識は、ロボット工学や人間と機械の相互作用を含む、無数の現実世界の応用が研究されている分野である。
現在のジェスチャー認識法は孤立したジェスチャーを認識することに重点を置いており、既存の連続ジェスチャー認識法は、検出と分類に独立したモデルを必要とする2段階のアプローチに限られている。
対照的に,複数のジェスチャを1つのモデルで検出・分類可能なtemporal multi-modal fusion(tmmf)と呼ばれる単段連続ジェスチャ認識フレームワークを導入する。
このアプローチは、ジェスチャーと非ジェスチャーの自然な遷移を、個々のジェスチャーを検出するための前処理のセグメンテーションステップなしで学習する。
これを実現するために,マルチモーダルな入力から流れる重要な情報の統合をサポートし,任意のモードにスケーラブルなマルチモーダル融合機構を提案する。
さらに,ユニモーダル・フィーチャー・マッピング(ufm)とマルチモーダル・フィーチャー・マッピング(mfm)モデルを提案し,それぞれユニモーダル・フィーチャーと融合したマルチモーダル・フィーチャーをマッピングする。
そこで,本研究では,実感と予測の円滑な一致を促す中点に基づく損失関数を提案し,モデルの自然なジェスチャー遷移の学習を支援する。
本稿では,可変長の入力ビデオを処理し,EgoGesture,IPN hand,ChaLearn LAP Continuous Gesture Dataset (ConGD) という3つの課題データセットで最先端の処理を行うフレームワークの有用性を示す。
さらに, アブレーション実験により, 提案手法の異なる成分の重要性が示された。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。