論文の概要: Multilingual Jointly Trained Acoustic and Written Word Embeddings
- arxiv url: http://arxiv.org/abs/2006.14007v1
- Date: Wed, 24 Jun 2020 19:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:17:39.715391
- Title: Multilingual Jointly Trained Acoustic and Written Word Embeddings
- Title(参考訳): 多言語共同学習型音響・書記語埋め込み
- Authors: Yushi Hu, Shane Settle, Karen Livescu
- Abstract要約: このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
- 参考スコア(独自算出の注目度): 22.63696520064212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic word embeddings (AWEs) are vector representations of spoken word
segments. AWEs can be learned jointly with embeddings of character sequences,
to generate phonetically meaningful embeddings of written words, or
acoustically grounded word embeddings (AGWEs). Such embeddings have been used
to improve speech retrieval, recognition, and spoken term discovery. In this
work, we extend this idea to multiple low-resource languages. We jointly train
an AWE model and an AGWE model, using phonetically transcribed data from
multiple languages. The pre-trained models can then be used for unseen
zero-resource languages, or fine-tuned on data from low-resource languages. We
also investigate distinctive features, as an alternative to phone labels, to
better share cross-lingual information. We test our models on word
discrimination tasks for twelve languages. When trained on eleven languages and
tested on the remaining unseen language, our model outperforms traditional
unsupervised approaches like dynamic time warping. After fine-tuning the
pre-trained models on one hour or even ten minutes of data from a new language,
performance is typically much better than training on only the target-language
data. We also find that phonetic supervision improves performance over
character sequences, and that distinctive feature supervision is helpful in
handling unseen phones in the target language.
- Abstract(参考訳): 音響単語埋め込み(AWEs)は、音声単語セグメントのベクトル表現である。
AWEは文字列の埋め込みと共同で学習し、音素的に意味のある単語の埋め込みを生成するか、または音響的に接地された単語埋め込み(AGWE)を生成する。
このような埋め込みは、音声検索、認識、発話語発見を改善するために使われてきた。
本研究では、このアイデアを複数の低リソース言語に拡張する。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前学習されたモデルは、無意味なゼロリソース言語や、低リソース言語からのデータの微調整に使用できる。
また,言語間の情報共有を改善するために,電話ラベルに代わる特徴的特徴についても検討した。
私たちは12言語で単語識別タスクでモデルをテストします。
11の言語でトレーニングし、残りの未確認言語でテストすると、我々のモデルは動的時間ワープのような従来の教師なしアプローチよりも優れています。
トレーニング済みのモデルを新しい言語から1時間または10分のデータで微調整した後、通常、ターゲット言語データのみのトレーニングよりもパフォーマンスがはるかに良い。
また,音声の監視は文字列よりも性能が向上し,特徴的監視は対象言語における未認識の携帯電話の処理に有用であることがわかった。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。