論文の概要: Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition
- arxiv url: http://arxiv.org/abs/2008.09412v1
- Date: Fri, 21 Aug 2020 10:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:45:30.988027
- Title: Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition
- Title(参考訳): ジェスチャー認識のためのマルチレート・マルチモーダル時間拡張ネットワークの探索
- Authors: Zitong Yu, Benjia Zhou, Jun Wan, Pichao Wang, Haoyu Chen, Xin Liu,
Stan Z. Li, Guoying Zhao
- Abstract要約: RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
- 参考スコア(独自算出の注目度): 89.0152015268929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture recognition has attracted considerable attention owing to its great
potential in applications. Although the great progress has been made recently
in multi-modal learning methods, existing methods still lack effective
integration to fully explore synergies among spatio-temporal modalities
effectively for gesture recognition. The problems are partially due to the fact
that the existing manually designed network architectures have low efficiency
in the joint learning of multi-modalities. In this paper, we propose the first
neural architecture search (NAS)-based method for RGB-D gesture recognition.
The proposed method includes two key components: 1) enhanced temporal
representation via the proposed 3D Central Difference Convolution (3D-CDC)
family, which is able to capture rich temporal context via aggregating temporal
difference information; and 2) optimized backbones for multi-sampling-rate
branches and lateral connections among varied modalities. The resultant
multi-modal multi-rate network provides a new perspective to understand the
relationship between RGB and depth modalities and their temporal dynamics.
Comprehensive experiments are performed on three benchmark datasets (IsoGD,
NvGesture, and EgoGesture), demonstrating the state-of-the-art performance in
both single- and multi-modality settings.The code is available at
https://github.com/ZitongYu/3DCDC-NAS
- Abstract(参考訳): ジェスチャー認識は、アプリケーションの大きな可能性のために、かなりの注目を集めている。
近年,マルチモーダル学習において大きな進歩がみられたが,ジェスチャ認識に有効な時空間的モダリティの相乗効果を完全に探究するには,既存の手法では有効な統合が不十分である。
問題の一部は、既存の手動設計のネットワークアーキテクチャが、マルチモダリティの合同学習において低効率であることによる。
本稿では,RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャ探索法を提案する。
提案手法は2つの鍵成分を含む。
1)3次元中央差分変換(3D-CDC)による時間的表現の強化(3D-CDC)により、時間的差分情報を集約することで、豊かな時間的文脈を捉えることができる。
2)マルチサンプリングレート分岐の最適化バックボーンと異なるモダリティ間の側線接続。
結果として得られたマルチモードマルチレートネットワークは、RGBと深さモードの関係と時間的ダイナミクスを理解するための新しい視点を提供する。
総合的な実験は、3つのベンチマークデータセット(isogd、nvgesture、egogesture)で行われ、シングルモダリティとマルチモダリティ設定の両方で最先端のパフォーマンスを示している。
関連論文リスト
- GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識は ユニセンサーシステムの弱点を克服する能力によって 注目を集めています
本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。
我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文 参考訳(メタデータ) (2024-08-10T03:15:24Z) - Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition [30.975823858419965]
我々は、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized-Trans)と呼ばれる革新的なアーキテクチャを提案する。
MFSTモデルは、3次元差分コンステム(CDC-Stem)モジュールと複数の分解時間段階から構成される。
論文 参考訳(メタデータ) (2023-08-23T08:49:43Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。