論文の概要: Regional Attention with Architecture-Rebuilt 3D Network for RGB-D
Gesture Recognition
- arxiv url: http://arxiv.org/abs/2102.05348v1
- Date: Wed, 10 Feb 2021 09:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:35:17.710276
- Title: Regional Attention with Architecture-Rebuilt 3D Network for RGB-D
Gesture Recognition
- Title(参考訳): RGB-Dジェスチャ認識のためのアーキテクチャ再構成3Dネットワークによる地域的配慮
- Authors: Benjia Zhou, Yunan Li and Jun Wan
- Abstract要約: ジェスチャー認識のためのアーキテクチャ再構築型3Dネットワーク(RAAR3DNet)を提案する。
我々は、ニューラルネットワークサーチ(NAS)を介して、ネットワークを介して自動的に再構築された構造に固定されたインセプションモジュールを置き換える。
これにより、ネットワークは異なるレイヤにおけるさまざまなレベルの特徴表現をより適応的にキャプチャできる。
- 参考スコア(独自算出の注目度): 7.475025465262353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human gesture recognition has drawn much attention in the area of computer
vision. However, the performance of gesture recognition is always influenced by
some gesture-irrelevant factors like the background and the clothes of
performers. Therefore, focusing on the regions of hand/arm is important to the
gesture recognition. Meanwhile, a more adaptive architecture-searched network
structure can also perform better than the block-fixed ones like Resnet since
it increases the diversity of features in different stages of the network
better. In this paper, we propose a regional attention with
architecture-rebuilt 3D network (RAAR3DNet) for gesture recognition. We replace
the fixed Inception modules with the automatically rebuilt structure through
the network via Neural Architecture Search (NAS), owing to the different shape
and representation ability of features in the early, middle, and late stage of
the network. It enables the network to capture different levels of feature
representations at different layers more adaptively. Meanwhile, we also design
a stackable regional attention module called dynamic-static Attention (DSA),
which derives a Gaussian guidance heatmap and dynamic motion map to highlight
the hand/arm regions and the motion information in the spatial and temporal
domains, respectively. Extensive experiments on two recent large-scale RGB-D
gesture datasets validate the effectiveness of the proposed method and show it
outperforms state-of-the-art methods. The codes of our method are available at:
https://github.com/zhoubenjia/RAAR3DNet.
- Abstract(参考訳): 人間のジェスチャー認識はコンピュータビジョンの領域で多くの注目を集めている。
しかし、ジェスチャー認識のパフォーマンスは、芸人の背景や服装など、ジェスチャーと無関係な要素によって常に影響を受けている。
したがって、手/腕の領域に焦点を当てることは、ジェスチャー認識にとって重要です。
一方、より適応的なアーキテクチャで検索されたネットワーク構造は、ネットワークの異なる段階における機能の多様性を増すため、resnetのようなブロック固定型ネットワーク構造よりもパフォーマンスが良い。
本稿では、ジェスチャー認識のためのアーキテクチャリビルド3Dネットワーク(RAAR3DNet)による地域的注目を提案する。
我々は,ネットワークの初期,中期,後期における特徴の形状や表現能力が異なるため,ニューラルネットワーク検索 (nas) によって,固定型インセプションモジュールを自動再構築した構造に置き換える。
これにより、ネットワークは異なるレイヤで異なるレベルの特徴表現をより適応的に捉えることができる。
また,動的静的アテンション(dsa)と呼ばれるスタック可能な局所アテンションモジュールも設計した。これはガウスの誘導ヒートマップと動的モーションマップから,空間領域と時間領域における手/腕領域と動き情報をそれぞれ強調する。
最近の2つの大規模RGB-Dジェスチャデータセットに関する広範な実験は、提案手法の有効性を検証し、最新手法を上回っていることを示す。
このメソッドのコードは、https://github.com/zhoubenjia/raar3dnetで利用可能です。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Neural-Pull: Learning Signed Distance Functions from Point Clouds by
Learning to Pull Space onto Surfaces [68.12457459590921]
3次元点雲から連続曲面を再構成することは、3次元幾何処理の基本的な操作である。
textitNeural-Pullは、シンプルで高品質なSDFを実現する新しいアプローチです。
論文 参考訳(メタデータ) (2020-11-26T23:18:10Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Directional Temporal Modeling for Action Recognition [24.805397801876687]
本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
論文 参考訳(メタデータ) (2020-07-21T18:49:57Z) - Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture
Recognition [23.054444026402738]
本稿では,3次元高密度畳み込みネットワーク(3D-DenseNets)と時間的畳み込みネットワーク(TCNs)の改善に基づくマルチモーダルジェスチャー認識手法を提案する。
空間分析では3D-DenseNetを用いて短期的特徴を効果的に学習する。
時間的分析では、TNを用いて時間的特徴を抽出し、改良されたSqueeze-and-Excitation Networks(SENet)を用いて各TNの層から時間的特徴の表現力を強化する。
論文 参考訳(メタデータ) (2019-12-31T23:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。