論文の概要: Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge
- arxiv url: http://arxiv.org/abs/2205.07083v1
- Date: Sat, 14 May 2022 15:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 16:54:31.965910
- Title: Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge
- Title(参考訳): 音声言語認識のための事前学習アプローチ:OLR 2021チャレンジへのTalTechの提出
- Authors: Tanel Alum\"ae and Kunnar Kukk
- Abstract要約: この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates different pretraining approaches to spoken language
identification. The paper is based on our submission to the Oriental Language
Recognition 2021 Challenge. We participated in two tracks of the challenge:
constrained and unconstrained language recognition. For the constrained track,
we first trained a Conformer-based encoder-decoder model for multilingual
automatic speech recognition (ASR), using the provided training data that had
transcripts available. The shared encoder of the multilingual ASR model was
then finetuned for the language identification task. For the unconstrained
task, we relied on both externally available pretrained models as well as
external data: the multilingual XLSR-53 wav2vec2.0 model was finetuned on the
VoxLingua107 corpus for the language recognition task, and finally finetuned on
the provided target language training data, augmented with CommonVoice data.
Our primary metric $C_{\rm avg}$ values on the Test set are 0.0079 for the
constrained task and 0.0119 for the unconstrained task which resulted in the
second place in both rankings. In post-evaluation experiments, we study the
amount of target language data needed for training an accurate backend model,
the importance of multilingual pretraining data, and compare different models
as finetuning starting points.
- Abstract(参考訳): 本稿では,言語識別における事前学習手法について検討する。
本論文は,東洋言語認識2021チャレンジへの提案に基づいている。
我々は,制約付き言語認識と制約なし言語認識という,課題の2つのトラックに参加した。
制約付きトラックに対して,我々は書き起こし可能なトレーニングデータを用いて,多言語自動音声認識(asr)のためのコンフォーメータベースのエンコーダ・デコーダモデルを最初に訓練した。
多言語ASRモデルの共有エンコーダは、言語識別タスクのために微調整された。
多言語xlsr-53 wav2vec2.0モデルは、言語認識タスクのためにvoxlingua107コーパスに微調整され、最終的に提供されるターゲット言語トレーニングデータに微調整され、コモンボイスデータが追加された。
テストセットにおける最初のメトリック $c_{\rm avg}$ は制約付きタスクで 0.0079 であり、制約なしタスクでは 0.0119 であり、両ランキングで第2位となった。
評価後実験では、正確なバックエンドモデルのトレーニングに必要な目標言語データ量、多言語事前学習データの重要性、および異なるモデルの微調整開始点としての比較を行った。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer
in ASR [13.726142328715897]
本稿では、ターゲット言語からの全く転写されていないトレーニングデータを用いて、ASRシステムの言語間訓練を行う方法を提案する。
提案手法は,対象言語からの未ペア音声とテキストデータのみを演算する復号アルゴリズムの新たな適用法である。
論文 参考訳(メタデータ) (2021-11-12T16:16:46Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。