論文の概要: A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2007.12530v2
- Date: Fri, 19 Mar 2021 19:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:59:05.764160
- Title: A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition
- Title(参考訳): 手話認識のための深層学習手法に関する総合的研究
- Authors: Nikolas Adaloglou, Theocharis Chatzis, Ilias Papastratis, Andreas
Stergioulas, Georgios Th. Papadopoulos, Vassia Zacharopoulou, George J.
Xydopoulos, Klimnis Atzakas, Dimitris Papazachariou, and Petros Daras
- Abstract要約: 本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
- 参考スコア(独自算出の注目度): 14.714669469867871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a comparative experimental assessment of computer vision-based
methods for sign language recognition is conducted. By implementing the most
recent deep neural network methods in this field, a thorough evaluation on
multiple publicly available datasets is performed. The aim of the present study
is to provide insights on sign language recognition, focusing on mapping
non-segmented video streams to glosses. For this task, two new sequence
training criteria, known from the fields of speech and scene text recognition,
are introduced. Furthermore, a plethora of pretraining schemes is thoroughly
discussed. Finally, a new RGB+D dataset for the Greek sign language is created.
To the best of our knowledge, this is the first sign language dataset where
sentence and gloss level annotations are provided for a video capture.
- Abstract(参考訳): 本論文では,手話認識のためのコンピュータビジョンに基づく手法の比較実験を行った。
この分野で最新のディープニューラルネットワーク手法を実装することで、複数の公開データセットに対する徹底的な評価が行われる。
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
そこで本課題では,音声およびシーンテキスト認識の分野から知られる2つの新しいシーケンストレーニング基準を導入する。
さらに,プレトレーニングスキームについて概説した。
最後に、ギリシャ手話のための新しいRGB+Dデータセットを作成する。
私たちの知る限りでは、これは最初の手話データセットで、ビデオキャプチャに文と用語レベルのアノテーションが提供されている。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets [2.512406961007489]
時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。
特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-21T16:36:40Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。