論文の概要: One for All: An End-to-End Compact Solution for Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2105.07143v1
- Date: Sat, 15 May 2021 05:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 12:26:03.207628
- Title: One for All: An End-to-End Compact Solution for Hand Gesture Recognition
- Title(参考訳): ひとつは、手ジェスチャー認識のためのエンドツーエンドのコンパクトなソリューション
- Authors: Monu Verma, Ayushi Gupta, santosh kumar Vipparthi
- Abstract要約: 本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。
提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。
Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
- 参考スコア(独自算出の注目度): 8.321276216978637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The HGR is a quite challenging task as its performance is influenced by
various aspects such as illumination variations, cluttered backgrounds,
spontaneous capture, etc. The conventional CNN networks for HGR are following
two stage pipeline to deal with the various challenges: complex signs,
illumination variations, complex and cluttered backgrounds. The existing
approaches needs expert expertise as well as auxiliary computation at stage 1
to remove the complexities from the input images. Therefore, in this paper, we
proposes an novel end-to-end compact CNN framework: fine grained feature
attentive network for hand gesture recognition (Fit-Hand) to solve the
challenges as discussed above. The pipeline of the proposed architecture
consists of two main units: FineFeat module and dilated convolutional (Conv)
layer. The FineFeat module extracts fine grained feature maps by employing
attention mechanism over multiscale receptive fields. The attention mechanism
is introduced to capture effective features by enlarging the average behaviour
of multi-scale responses. Moreover, dilated convolution provides global
features of hand gestures through a larger receptive field. In addition,
integrated layer is also utilized to combine the features of FineFeat module
and dilated layer which enhances the discriminability of the network by
capturing complementary context information of hand postures. The effectiveness
of Fit- Hand is evaluated by using subject dependent (SD) and subject
independent (SI) validation setup over seven benchmark datasets: MUGD-I,
MUGD-II, MUGD-III, MUGD-IV, MUGD-V, Finger Spelling and OUHANDS, respectively.
Furthermore, to investigate the deep insights of the proposed Fit-Hand
framework, we performed ten ablation study.
- Abstract(参考訳): HGRは、照明のバリエーション、散らかった背景、自発的なキャプチャなど、様々な側面の影響を受けており、非常に難しいタスクです。
HGRの従来のCNNネットワークは、複雑な標識、照明のバリエーション、複雑な背景と散らかった背景といった様々な課題に対処する2つのステージパイプラインに従っている。
既存のアプローチでは、入力画像から複雑さを取り除くために、専門家の専門知識と、ステージ1での補助計算が必要である。
そこで,本稿では,上述の課題を解決するために,手指ジェスチャー認識(フィットハンド)のための細粒度特徴注意ネットワークという,新しいエンド・ツー・エンドのコンパクトcnnフレームワークを提案する。
提案されたアーキテクチャのパイプラインは、ファインフェイトモジュールと拡張畳み込み(convolutional, conv)層という2つの主要なユニットで構成されている。
FineFeatモジュールは、マルチスケールの受信フィールド上の注意機構を利用して、きめ細かい特徴マップを抽出する。
マルチスケール応答の平均挙動を増大させることにより,効果的な特徴を捉えるための注意機構が導入された。
さらに、拡張畳み込みは、より大きな受容領域を通して手の動きのグローバルな特徴を提供する。
また、FineFeatモジュールと拡張レイヤの機能を組み合わせることで、手姿勢の相補的コンテキスト情報をキャプチャすることで、ネットワークの識別性を高めることができる。
被検者依存型(SD)と被検者依存型(SI)を7つのベンチマークデータセット(MUGD-I,MUGD-II,MUGD-III,MUGD-IV,MUGD-V,Finger Spelling,OUHANDS)で評価した。
さらに,提案するフィットハンドフレームワークの深い知見を検討するため,10個のアブレーション実験を行った。
関連論文リスト
- IVGF: The Fusion-Guided Infrared and Visible General Framework [41.07925395888705]
赤外および可視の両モードタスクは、相補的な情報を融合することで、極端な場面でも堅牢なパフォーマンスを達成することができる。
我々は、多くの高レベル視覚タスクに容易に拡張可能な、統合誘導型赤外線可視光一般フレームワークIVGFを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:38:37Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition [4.6898263272139795]
本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
論文 参考訳(メタデータ) (2020-04-02T16:21:14Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。