論文の概要: Unsupervised Subword Modeling Using Autoregressive Pretraining and
Cross-Lingual Phone-Aware Modeling
- arxiv url: http://arxiv.org/abs/2007.13002v2
- Date: Thu, 6 Aug 2020 19:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:17:34.074440
- Title: Unsupervised Subword Modeling Using Autoregressive Pretraining and
Cross-Lingual Phone-Aware Modeling
- Title(参考訳): 自己回帰事前学習と言語間音声認識モデルを用いた教師なしサブワードモデリング
- Authors: Siyuan Feng, Odette Scharenborg
- Abstract要約: この研究は、教師なしサブワードモデリング、すなわち言語のサブワード単位を区別できる特徴表現の学習に対処する。
提案手法では,自動回帰予測符号化(APC)をフロントエンドとして,DNN-BNFモデルをバックエンドとして,二段階ボトルネック(BNF)学習フレームワークを採用する。
Libri-lightとZeroSpeech 2017データベースの結果は、APCがフロントエンドの機能事前トレーニングに有効であることを示している。
- 参考スコア(独自算出の注目度): 30.905849959257264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses unsupervised subword modeling, i.e., learning feature
representations that can distinguish subword units of a language. The proposed
approach adopts a two-stage bottleneck feature (BNF) learning framework,
consisting of autoregressive predictive coding (APC) as a front-end and a
DNN-BNF model as a back-end. APC pretrained features are set as input features
to a DNN-BNF model. A language-mismatched ASR system is used to provide
cross-lingual phone labels for DNN-BNF model training. Finally, BNFs are
extracted as the subword-discriminative feature representation. A second aim of
this work is to investigate the robustness of our approach's effectiveness to
different amounts of training data. The results on Libri-light and the
ZeroSpeech 2017 databases show that APC is effective in front-end feature
pretraining. Our whole system outperforms the state of the art on both
databases. Cross-lingual phone labels for English data by a Dutch ASR
outperform those by a Mandarin ASR, possibly linked to the larger similarity of
Dutch compared to Mandarin with English. Our system is less sensitive to
training data amount when the training data is over 50 hours. APC pretraining
leads to a reduction of needed training material from over 5,000 hours to
around 200 hours with little performance degradation.
- Abstract(参考訳): この研究は、教師なしサブワードモデリング、すなわち言語のサブワード単位を区別できる特徴表現の学習に対処する。
提案手法では,自動回帰予測符号化(APC)をフロントエンドとして,DNN-BNFモデルをバックエンドとして,二段階ボトルネック(BNF)学習フレームワークを採用する。
APC事前訓練された機能は、DNN-BNFモデルの入力特徴として設定される。
言語ミスマッチされたASRシステムは、DNN-BNFモデルトレーニングのための言語間電話ラベルを提供するために使用される。
最後に、BNFをサブワード識別特徴表現として抽出する。
この研究の第2の目的は、異なる量のトレーニングデータに対するアプローチの有効性の堅牢性を調べることである。
Libri-lightとZeroSpeech 2017データベースの結果は、APCがフロントエンドの機能事前トレーニングに有効であることを示している。
私たちのシステム全体が、両方のデータベースの最先端を上回っています。
オランダ語 ASR による英語データのための言語間電話ラベルは、マンダリン ASR よりも優れており、おそらくはマンダリンと英語とのより大きな類似性と関連している。
当社のシステムは,トレーニングデータが50時間を超えると,トレーニングデータ量に対する感度が低下する。
APCプレトレーニングは、必要なトレーニング材料を5,000時間以上から200時間程度に短縮し、性能の劣化がほとんどない。
関連論文リスト
- Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。