論文の概要: Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding
- arxiv url: http://arxiv.org/abs/2204.04965v1
- Date: Mon, 11 Apr 2022 09:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:44:38.893970
- Title: Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding
- Title(参考訳): 事前学習された視覚特徴抽出器と制約付きctc復号を用いたキュード音声認識のためのマルチストリームニューラルアーキテクチャ
- Authors: Sanjana Sankar (GIPSA-CRISSP), Denis Beautemps (GIPSA-CRISSP), Thomas
Hueber (GIPSA-CRISSP)
- Abstract要約: Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a simple and effective approach for automatic recognition
of Cued Speech (CS), a visual communication tool that helps people with hearing
impairment to understand spoken language with the help of hand gestures that
can uniquely identify the uttered phonemes in complement to lipreading. The
proposed approach is based on a pre-trained hand and lips tracker used for
visual feature extraction and a phonetic decoder based on a multistream
recurrent neural network trained with connectionist temporal classification
loss and combined with a pronunciation lexicon. The proposed system is
evaluated on an updated version of the French CS dataset CSF18 for which the
phonetic transcription has been manually checked and corrected. With a decoding
accuracy at the phonetic level of 70.88%, the proposed system outperforms our
previous CNN-HMM decoder and competes with more complex baselines.
- Abstract(参考訳): 本論文は,聴覚障害のある人が音声を理解できるための視覚コミュニケーションツールであるCued Speech(CS)の自動認識のための,シンプルで効果的なアプローチを提案する。
提案手法は,視覚特徴抽出に用いられる事前学習された手とリップストラッカと,コネクショニスト時間的分類損失を訓練し発音レキシコンと組み合わせた多ストリームリカレントニューラルネットワークに基づく音韻デコーダに基づいている。
提案システムはフランス語CSデータセットCSF18の更新版に基づいて評価され,手動で音素の書き起こしをチェック・修正した。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れ、より複雑なベースラインと競合する。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - A review of on-device fully neural end-to-end automatic speech
recognition algorithms [20.469868150587075]
デバイス上での各種自動音声認識アルゴリズムとその最適化手法について検討する。
完全ニューラルネットワークのエンドツーエンド音声認識アルゴリズムが提案されている。
従来のアルゴリズムと比較して,それらの構造,性能,利点を広く論じる。
論文 参考訳(メタデータ) (2020-12-14T22:18:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。