論文の概要: Res3ATN -- Deep 3D Residual Attention Network for Hand Gesture
Recognition in Videos
- arxiv url: http://arxiv.org/abs/2001.01083v1
- Date: Sat, 4 Jan 2020 14:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 12:38:39.570383
- Title: Res3ATN -- Deep 3D Residual Attention Network for Hand Gesture
Recognition in Videos
- Title(参考訳): Res3ATN -- ビデオにおける手のジェスチャー認識のための深部3次元残留注意ネットワーク
- Authors: Naina Dhingra and Andreas Kunz
- Abstract要約: 手のジェスチャー認識のための3D残差注意ネットワークをエンドツーエンドに訓練する。
重み付けされた複数の注意ブロックに基づいて,各注意ブロックに異なる特徴を生成する3Dネットワークを構築する。
我々の3Dアテンションに基づく残留ネットワーク(Res3ATN)は構築され、非常に深い層に拡張できる。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture recognition is a strenuous task to solve in videos. In this
paper, we use a 3D residual attention network which is trained end to end for
hand gesture recognition. Based on the stacked multiple attention blocks, we
build a 3D network which generates different features at each attention block.
Our 3D attention based residual network (Res3ATN) can be built and extended to
very deep layers. Using this network, an extensive analysis is performed on
other 3D networks based on three publicly available datasets. The Res3ATN
network performance is compared to C3D, ResNet-10, and ResNext-101 networks. We
also study and evaluate our baseline network with different number of attention
blocks. The comparison shows that the 3D residual attention network with 3
attention blocks is robust in attention learning and is able to classify the
gestures with better accuracy, thus outperforming existing networks.
- Abstract(参考訳): 手のジェスチャー認識は、ビデオで解決すべき厳しいタスクだ。
本稿では,手動ジェスチャー認識のために,エンドツーエンドに訓練された3D残像注意ネットワークを用いる。
複数のアテンションブロックを積み重ねることで,アテンションブロック毎に異なる特徴を生成する3dネットワークを構築する。
我々の3Dアテンションに基づく残留ネットワーク(Res3ATN)は構築され、非常に深い層に拡張できる。
このネットワークを使用して、3つの公開データセットに基づいて、他の3Dネットワーク上で広範な解析を行う。
Res3ATNネットワークの性能は、C3D、ResNet-10、ResNext-101ネットワークと比較される。
また,注意ブロック数の異なるベースラインネットワークについて検討し,評価した。
比較の結果,注意ブロックが3つある3次元残留注意ネットワークは注意学習において頑健であり,ジェスチャを精度良く分類でき,既存のネットワークよりも優れていることがわかった。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - Putting 3D Spatially Sparse Networks on a Diet [21.881294733075393]
本稿では, セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS3-ConvNet)を提案する。
我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、我々のWS3-ConvNetが、最小限の性能損失(2-15%の低下)を、15%少ないパラメータ(1/100の圧縮率)で達成することを示す。
最後に、WS3-ConvNetの圧縮パターンを体系的に解析し、圧縮されたネットワークに共通する興味深いスパシティパターンを示し、推論をさらに高速化する。
論文 参考訳(メタデータ) (2021-12-02T15:20:15Z) - 3D-OOCS: Learning Prostate Segmentation with Inductive Bias [5.907824204733372]
我々は,脊椎動物の視覚処理に触発された新しいアーキテクチャであるOOCS-enhanced Networkを紹介した。
ベースとして異なる3D U-Netの変種を伴って、第2エンコーダブロックに2つの3D残留成分(オン・オフ・センター・サラウンド)を付加する。
OOCSは、3DのU-Netが3D画像に存在する解剖学的構造を精査し、精査するのに役立つ。
論文 参考訳(メタデータ) (2021-10-29T10:14:56Z) - AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition [0.6352264764099531]
本稿では,AttDLNetという3次元LiDARに基づくディープラーニングネットワークを提案する。
注意機構を利用して、長距離コンテキストと機能間関係に選択的にフォーカスする。
その結果、エンコーダネットワークの機能は、すでに非常に説明力があるが、ネットワークに注意を加えることで、パフォーマンスがさらに向上していることがわかった。
論文 参考訳(メタデータ) (2021-06-17T16:34:37Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。