論文の概要: Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation
- arxiv url: http://arxiv.org/abs/2104.00994v1
- Date: Fri, 2 Apr 2021 11:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:43:34.182548
- Title: Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation
- Title(参考訳): 言語非依存な単語識別特徴表現を用いた教師なし音響単位発見
- Authors: Siyuan Feng and Piotr \.Zelasko and Laureano Moro-Vel\'azquez and
Odette Scharenborg
- Abstract要約: 本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
- 参考スコア(独自算出の注目度): 31.87235700253597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles automatically discovering phone-like acoustic units (AUD)
from unlabeled speech data. Past studies usually proposed single-step
approaches. We propose a two-stage approach: the first stage learns a
subword-discriminative feature representation and the second stage applies
clustering to the learned representation and obtains phone-like clusters as the
discovered acoustic units. In the first stage, a recently proposed method in
the task of unsupervised subword modeling is improved by replacing a
monolingual out-of-domain (OOD) ASR system with a multilingual one to create a
subword-discriminative representation that is more language-independent. In the
second stage, segment-level k-means is adopted, and two methods to represent
the variable-length speech segments as fixed-dimension feature vectors are
compared. Experiments on a very low-resource Mboshi language corpus show that
our approach outperforms state-of-the-art AUD in both normalized mutual
information (NMI) and F-score. The multilingual ASR improved upon the
monolingual ASR in providing OOD phone labels and in estimating the phone
boundaries. A comparison of our systems with and without knowing the
ground-truth phone boundaries showed a 16% NMI performance gap, suggesting that
the current approach can significantly benefit from improved phone boundary
estimation.
- Abstract(参考訳): 本稿では,未ラベル音声データからAUDを自動検出する手法を提案する。
過去の研究では通常単段アプローチが提案されている。
2段階のアプローチを提案する。第1段階はサブワード識別特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,発見音響単位として電話のようなクラスタを得る。
最初の段階では、単言語対ドメイン(OOD)ASRシステムを多言語に置き換え、より言語に依存しないサブワード識別表現を生成することにより、教師なしサブワードモデリングタスクにおける最近提案された手法を改善した。
第2段階では、セグメントレベルのk平均が採用され、可変長音声セグメントを固定次元特徴ベクトルとして表現する2つの方法が比較される。
非常に低リソースなMboshi言語コーパスの実験により,本手法は正規化相互情報(NMI)とFスコアの両方において最先端のAUDよりも優れていた。
多言語ASRは、単言語ASRによりOOD電話ラベルを提供し、電話の境界を推定した。
我々のシステムと接地電話の境界を知らずに比較したところ、16%のnmi性能の差があり、現在のアプローチは電話境界推定の改善によって有益であることが示唆された。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。