論文の概要: Fine-tuning of sign language recognition models: a technical report
- arxiv url: http://arxiv.org/abs/2302.07693v2
- Date: Thu, 16 Feb 2023 07:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 16:15:15.644890
- Title: Fine-tuning of sign language recognition models: a technical report
- Title(参考訳): 手話認識モデルの微調整:技術報告
- Authors: Maxim Novopoltsev, Leonid Verkhovtsev, Ruslan Murtazin, Dmitriy
Milevich, Iuliia Zemtsova
- Abstract要約: 我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sign Language Recognition (SLR) is an essential yet challenging task since
sign language is performed with the fast and complex movement of hand gestures,
body posture, and even facial expressions. %Skeleton Aware Multi-modal Sign
Language Recognition In this work, we focused on investigating two questions:
how fine-tuning on datasets from other sign languages helps improve sign
recognition quality, and whether sign recognition is possible in real-time
without using GPU. Three different languages datasets (American sign language
WLASL, Turkish - AUTSL, Russian - RSL) have been used to validate the models.
The average speed of this system has reached 3 predictions per second, which
meets the requirements for the real-time scenario. This model (prototype) will
benefit speech or hearing impaired people talk with other trough internet. We
also investigated how the additional training of the model in another sign
language affects the quality of recognition. The results show that further
training of the model on the data of another sign language almost always leads
to an improvement in the quality of gesture recognition. We also provide code
for reproducing model training experiments, converting models to ONNX format,
and inference for real-time gesture recognition.
- Abstract(参考訳): 手話認識(SLR)は手の動き、身体姿勢、さらには表情の高速かつ複雑な動きによって手話が実行されるため、必須かつ困難な課題である。
%Skeleton Aware Multi-modal Sign Language Recognition この研究では、他の手話言語からのデータセットの微調整が、手話認識の品質向上に役立つか、GPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてた。
3つの異なる言語データセット(WLASL、トルコ語 - AUTSL、ロシア語 - RSL)がモデルの検証に使用されている。
このシステムの平均速度は毎秒3つの予測に達し、リアルタイムシナリオの要件を満たす。
このモデル(プロトタイプ)は、音声や聴覚障害者が他のトラフインターネットと会話するのに役立つだろう。
また,別の手話におけるモデル追加訓練が認識の質に与える影響についても検討した。
その結果、他の手話のデータに対するモデルのさらなる訓練は、ほとんどの場合、ジェスチャー認識の質の向上につながることが示された。
また、モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードも提供する。
関連論文リスト
- Towards Online Sign Language Recognition and Translation [41.85360877354916]
我々は、ターゲット手話データセットに存在するすべてのグルースを含む手話辞書を開発する。
我々は,従来の分類損失と新たな給与損失の両方を用いて,拡張符号を用いた単独手話認識モデルを訓練する。
私たちのオンライン認識モデルは、オフラインモデルの性能を高めるために拡張できます。
論文 参考訳(メタデータ) (2024-01-10T18:59:53Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。