論文の概要: The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks
- arxiv url: http://arxiv.org/abs/2012.09544v2
- Date: Wed, 28 Apr 2021 09:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:18:52.869788
- Title: The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks
- Title(参考訳): 自己回帰型および言語横断型音声認識ネットワークを用いた教師なしサブワードモデルの有効性
- Authors: Siyuan Feng, Odette Scharenborg
- Abstract要約: 自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
- 参考スコア(独自算出の注目度): 36.24509775775634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses unsupervised subword modeling, i.e., learning acoustic
feature representations that can distinguish between subword units of a
language. We propose a two-stage learning framework that combines
self-supervised learning and cross-lingual knowledge transfer. The framework
consists of autoregressive predictive coding (APC) as the front-end and a
cross-lingual deep neural network (DNN) as the back-end. Experiments on the ABX
subword discriminability task conducted with the Libri-light and ZeroSpeech
2017 databases showed that our approach is competitive or superior to
state-of-the-art studies. Comprehensive and systematic analyses at the phoneme-
and articulatory feature (AF)-level showed that our approach was better at
capturing diphthong than monophthong vowel information, while also differences
in the amount of information captured for different types of consonants were
observed. Moreover, a positive correlation was found between the effectiveness
of the back-end in capturing a phoneme's information and the quality of the
cross-lingual phone labels assigned to the phoneme. The AF-level analysis
together with t-SNE visualization results showed that the proposed approach is
better than MFCC and APC features in capturing manner and place of articulation
information, vowel height, and backness information. Taken together, the
analyses showed that the two stages in our approach are both effective in
capturing phoneme and AF information. Nevertheless, monophthong vowel
information is less well captured than consonant information, which suggests
that future research should focus on improving capturing monophthong vowel
information.
- Abstract(参考訳): この研究は、教師なしサブワードモデリング、すなわち、言語のサブワード単位を区別できる音響特徴表現の学習に対処する。
自己指導型学習と言語間知識伝達を組み合わせた2段階学習フレームワークを提案する。
このフレームワークは、フロントエンドとしてautoregressive prediction coding (apc)、バックエンドとしてcross-lingual deep neural network (dnn)で構成される。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
音素・調音機能(AF)レベルにおける包括的・系統的分析により,単声母音情報よりもディフソンを捕捉し,異なる種類の子音に対して取得した情報量に差が認められた。
また,音素情報取得におけるバックエンドの有効性と,音素に割り当てられた言語間ラベルの品質との間には正の相関が認められた。
The AF-level analysis with t-SNE visualization results showed that the proposed approach is better than MFCC and APC features in capture manner and place of articulation information, vowel height and backness information。
分析の結果,提案手法の2段階は音素情報とAF情報の収集に有効であることが判明した。
それにもかかわらず、単音母音情報は子音情報よりもうまく捉えられていないため、将来の研究は単音母音情報の獲得に焦点をあてるべきである。
関連論文リスト
- Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 [0.0]
中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
論文 参考訳(メタデータ) (2024-07-19T11:18:44Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。