論文の概要: Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2002.03187v1
- Date: Sat, 8 Feb 2020 15:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:54:58.747839
- Title: Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition
- Title(参考訳): 連続手話認識のための時空間マルチキューネットワーク
- Authors: Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li
- Abstract要約: 本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
- 参考スコア(独自算出の注目度): 141.24314054768922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of deep learning in continuous sign language
recognition (CSLR), deep models typically focus on the most discriminative
features, ignoring other potentially non-trivial and informative contents. Such
characteristic heavily constrains their capability to learn implicit visual
grammars behind the collaboration of different visual cues (i,e., hand shape,
facial expression and body posture). By injecting multi-cue learning into
neural network design, we propose a spatial-temporal multi-cue (STMC) network
to solve the vision-based sequence learning problem. Our STMC network consists
of a spatial multi-cue (SMC) module and a temporal multi-cue (TMC) module. The
SMC module is dedicated to spatial representation and explicitly decomposes
visual features of different cues with the aid of a self-contained pose
estimation branch. The TMC module models temporal correlations along two
parallel paths, i.e., intra-cue and inter-cue, which aims to preserve the
uniqueness and explore the collaboration of multiple cues. Finally, we design a
joint optimization strategy to achieve the end-to-end sequence learning of the
STMC network. To validate the effectiveness, we perform experiments on three
large-scale CSLR benchmarks: PHOENIX-2014, CSL and PHOENIX-2014-T. Experimental
results demonstrate that the proposed method achieves new state-of-the-art
performance on all three benchmarks.
- Abstract(参考訳): 連続手話認識(cslr)におけるディープラーニングの成功にもかかわらず、深層モデルは一般的に最も識別的な特徴に注目し、他の非自明で情報的な内容を無視している。
このような特徴は、異なる視覚手がかり(手形、表情、体姿勢など)の協調の背後にある暗黙の視覚的文法を学ぶ能力を強く制限している。
ニューラルネットワーク設計にマルチキュー学習を注入することにより,視覚に基づくシーケンス学習問題を解決するための空間時空間マルチキュー(stmc)ネットワークを提案する。
我々のSTMCネットワークは空間的マルチキュー(SMC)モジュールと時間的マルチキュー(TMC)モジュールで構成される。
SMCモジュールは空間表現に特化しており、自己完結したポーズ推定ブランチの助けを借りて、異なるキューの視覚的特徴を明示的に分解する。
TMCモジュールは、2つの平行な経路、すなわちキュー内とキュー間の時間的相関をモデル化する。
最後に,STMCネットワークのエンドツーエンドシーケンス学習を実現するための共同最適化手法を設計する。
有効性を検証するため,大規模なCSLRベンチマークであるPHOENIX-2014,CSL,PHOENIX-2014-Tの3つの実験を行った。
実験の結果,提案手法は3つのベンチマークで新しい最先端性能を実現することがわかった。
関連論文リスト
- SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition [14.450381668547259]
空間的自己注意機構を持つ視覚変換器は、細粒度の異なる画像のカテゴリを識別するために正確な注意マップを学習できなかった。
本稿では,STANと呼ばれる細粒度特徴表現を学習するための時空間アテンションネットワークを提案する。
提案したSTAN-OSFGRは,9つの最先端のオープンセット認識法に優れる。
論文 参考訳(メタデータ) (2022-11-25T07:46:42Z) - When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class
Medical Image Semantic Segmentation [13.911947592067678]
本稿では,一貫性を意識した擬似ラベルに基づく自己認識手法を提案する。
我々のフレームワークは、ViTとCNNによって相互に強化された特徴学習モジュールと、一貫性を意識した目的のために堅牢なガイダンスモジュールから構成されている。
実験により,提案手法は,公開ベンチマークデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-12T18:21:22Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Unsupervised Person Re-Identification with Multi-Label Learning Guided
Self-Paced Clustering [48.31017226618255]
近年、未監修者再確認(Re-ID)が注目されています。
本論文では,教師なしのRe-IDを,MLC(Multi-label Learning Guide Self-paced Clustering)と呼ばれる概念的に斬新かつ単純なフレームワークで対処する。
MLCは主に3つの重要なモジュール(マルチスケールネットワーク、マルチラベル学習モジュール、セルフペースクラスタリングモジュール)で識別的特徴を学習する。
論文 参考訳(メタデータ) (2021-03-08T07:30:13Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。