論文の概要: Towards Online Sign Language Recognition and Translation
- arxiv url: http://arxiv.org/abs/2401.05336v1
- Date: Wed, 10 Jan 2024 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 13:59:39.237340
- Title: Towards Online Sign Language Recognition and Translation
- Title(参考訳): オンライン手話認識と翻訳に向けて
- Authors: Ronglai Zuo, Fangyun Wei, Brian Mak
- Abstract要約: 我々は、ターゲット手話データセットに存在するすべてのグルースを含む手話辞書を開発する。
我々は,従来の分類損失と新たな給与損失の両方を用いて,拡張符号を用いた単独手話認識モデルを訓練する。
私たちのオンライン認識モデルは、オフラインモデルの性能を高めるために拡張できます。
- 参考スコア(独自算出の注目度): 41.85360877354916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of sign language recognition is to bridge the communication gap
between the deaf and the hearing. Numerous previous works train their models
using the well-established connectionist temporal classification (CTC) loss.
During the inference stage, the CTC-based models typically take the entire sign
video as input to make predictions. This type of inference scheme is referred
to as offline recognition. In contrast, while mature speech recognition systems
can efficiently recognize spoken words on the fly, sign language recognition
still falls short due to the lack of practical online solutions. In this work,
we take the first step towards filling this gap. Our approach comprises three
phases: 1) developing a sign language dictionary encompassing all glosses
present in a target sign language dataset; 2) training an isolated sign
language recognition model on augmented signs using both conventional
classification loss and our novel saliency loss; 3) employing a sliding window
approach on the input sign sequence and feeding each sign clip to the
well-optimized model for online recognition. Furthermore, our online
recognition model can be extended to boost the performance of any offline
model, and to support online translation by appending a gloss-to-text network
onto the recognition model. By integrating our online framework with the
previously best-performing offline model, TwoStream-SLR, we achieve new
state-of-the-art performance on three benchmarks: Phoenix-2014, Phoenix-2014T,
and CSL-Daily. Code and models will be available at
https://github.com/FangyunWei/SLRT
- Abstract(参考訳): 手話認識の目的は聴覚障害者と聴覚障害者のコミュニケーションギャップを橋渡しすることである。
多くの先行研究は、よく確立されたコネクショニスト時間分類(CTC)の損失を使ってモデルを訓練した。
推論段階では、CTCベースのモデルは通常、サインビデオ全体を入力として、予測を行う。
このタイプの推論スキームはオフライン認識と呼ばれる。
対照的に、成熟した音声認識システムは、オンザフライで話し言葉を認識することができるが、実用的なオンラインソリューションが欠如しているため、手話認識はまだ不足している。
この作業では、このギャップを埋める第一歩を踏み出します。
私たちのアプローチは3つのフェーズからなる。
1) 対象手話データセットに存在するすべての用語を包含する手話辞書の開発
2) 従来の分類損失と新たな給与損失の両方を用いて, 拡張記号を用いた単独手話認識モデルの訓練
3)入力サインシーケンスにスライディングウインドウアプローチを適用し,各サインクリップを最適化したオンライン認識モデルに供給する。
さらに、オンライン認識モデルを拡張して、オフラインモデルのパフォーマンスを高め、認識モデルに光沢からテキストへのネットワークを追加することにより、オンライン翻訳をサポートすることができる。
これまで最もパフォーマンスの高いオフラインモデルであるtwostream-slrとオンラインフレームワークを統合することで、phoenix-2014、phoenix-2014t、csl-dailyの3つのベンチマークで、新たな最先端のパフォーマンスを実現します。
コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。
関連論文リスト
- Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。