論文の概要: Investigating the dynamics of hand and lips in French Cued Speech using
attention mechanisms and CTC-based decoding
- arxiv url: http://arxiv.org/abs/2306.08290v1
- Date: Wed, 14 Jun 2023 06:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:06:15.089231
- Title: Investigating the dynamics of hand and lips in French Cued Speech using
attention mechanisms and CTC-based decoding
- Title(参考訳): 注意機構とctcに基づくデコードを用いたフランス語 cued 音声における手と唇のダイナミックスの検討
- Authors: Sanjana Sankar (GIPSA-CRISSP), Denis Beautemps (GIPSA-CRISSP),
Fr\'ed\'eric Elisei (ICP), Olivier Perrotin (GIPSA-CRISSP), Thomas Hueber
(GIPSA-CRISSP)
- Abstract要約: 難聴者や難聴者などは、音声言語を理解するためのコミュニケーションツールとして、CS(cued speech)を利用している。
本稿では,ニューラルネットワークが単一話者に対して,注意機構を用いて認識タスクを実行しながら,この関係を学習する方法を提案する。
学習力学の解析を用いて2つのモード間の関係を確立し、自動セグメントを抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hard of hearing or profoundly deaf people make use of cued speech (CS) as a
communication tool to understand spoken language. By delivering cues that are
relevant to the phonetic information, CS offers a way to enhance lipreading. In
literature, there have been several studies on the dynamics between the hand
and the lips in the context of human production. This article proposes a way to
investigate how a neural network learns this relation for a single speaker
while performing a recognition task using attention mechanisms. Further, an
analysis of the learnt dynamics is utilized to establish the relationship
between the two modalities and extract automatic segments. For the purpose of
this study, a new dataset has been recorded for French CS. Along with the
release of this dataset, a benchmark will be reported for word-level
recognition, a novelty in the automatic recognition of French CS.
- Abstract(参考訳): 難聴者や難聴者は、音声言語を理解するためのコミュニケーションツールとして、CS(cued speech)を利用する。
音声情報に関連する手がかりを提供することで、CSはリップリーディングを強化する手段を提供する。
文献では、人間の生産の文脈において、手と唇の動態に関するいくつかの研究がなされている。
本稿では,ニューラルネットワークが単一話者に対して,注意機構を用いて認識タスクを実行しながら,この関係を学習する方法を提案する。
さらに、学習ダイナミクスの分析を用いて、2つのモダリティ間の関係を確立し、自動セグメントを抽出する。
本研究の目的のために,フランスCS向けに新しいデータセットが記録されている。
このデータセットのリリースとともに、単語レベルの認識のためのベンチマークが報告される。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Towards Relation Extraction From Speech [56.36416922396724]
本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。
本研究では,音声合成システムによる音声関係抽出のための訓練データセットを構築し,英語母語話者によるクラウドソーシングによるテストデータセットを構築した。
我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。
論文 参考訳(メタデータ) (2022-10-17T05:53:49Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。