論文の概要: Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language
- arxiv url: http://arxiv.org/abs/2505.13784v1
- Date: Tue, 20 May 2025 00:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.57529
- Title: Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language
- Title(参考訳): ドイツ語手話における視覚音声認識からモーチング認識への変換学習
- Authors: Dinh Nam Pham, Eleftherios Avramidis,
- Abstract要約: この研究は、音声言語において、口語インスタンスを対応する単語に直接分類する。
ドイツ語手話における視覚音声認識から音声認識への変換学習の可能性について検討する。
- 参考スコア(独自算出の注目度): 5.92177182003275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign Language Recognition (SLR) systems primarily focus on manual gestures, but non-manual features such as mouth movements, specifically mouthing, provide valuable linguistic information. This work directly classifies mouthing instances to their corresponding words in the spoken language while exploring the potential of transfer learning from Visual Speech Recognition (VSR) to mouthing recognition in German Sign Language. We leverage three VSR datasets: one in English, one in German with unrelated words and one in German containing the same target words as the mouthing dataset, to investigate the impact of task similarity in this setting. Our results demonstrate that multi-task learning improves both mouthing recognition and VSR accuracy as well as model robustness, suggesting that mouthing recognition should be treated as a distinct but related task to VSR. This research contributes to the field of SLR by proposing knowledge transfer from VSR to SLR datasets with limited mouthing annotations.
- Abstract(参考訳): 手話認識(SLR)は主に手動のジェスチャーに焦点を当てるが、口の動き、特に口の動きなどの非手動的な特徴は、貴重な言語情報を提供する。
この研究は、視覚音声認識(VSR)からドイツ語手話における口語認識への変換学習の可能性を探りながら、音声言語における対応する単語に口語インスタンスを直接分類する。
我々は3つのVSRデータセットを利用する:1つは英語、1つはドイツ語、1つはドイツ語で無関係な単語、もう1つはドイツ語で、この設定におけるタスク類似性の影響を調べる。
以上の結果から,マルチタスク学習は口認識とVSRの精度とモデル頑健性を両立させ,VSRとは全く無関係なタスクとして扱わなければならないことが示唆された。
本研究は,VSRからSLRデータセットへの知識伝達を限定アノテーションで提案することにより,SLRの分野に寄与する。
関連論文リスト
- Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - MASR: Multi-label Aware Speech Representation [36.2978180342839]
マルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
我々は、他の確立されたベンチマークに比べて、MASRの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:09:57Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。