Fugu-MT 論文翻訳(概要): Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models

論文の概要: Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models

arxiv url: http://arxiv.org/abs/2211.05103v1
Date: Wed, 9 Nov 2022 18:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 17:32:20.641425
Title: Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models
Title（参考訳）: 偶然学習者:多言語自己教師モデルにおける言語識別
Authors: Travis M. Bartley, Fei Jia, Krishna C. Puvvada, Samuel Kriman, and Boris Ginsburg
Abstract要約: 事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。 NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
参考スコア（独自算出の注目度）: 11.439430077017635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we extend previous self-supervised approaches for language identification by experimenting with Conformer based architecture in a multilingual pre-training paradigm. We find that pre-trained speech models optimally encode language discriminatory information in lower layers. Further, we demonstrate that the embeddings obtained from these layers are significantly robust to classify unseen languages and different acoustic environments without additional training. After fine-tuning a pre-trained Conformer model on the VoxLingua107 dataset, we achieve results similar to current state-of-the-art systems for language identification. More, our model accomplishes this with 5x less parameters. We open-source the model through the NVIDIA NeMo toolkit.
Abstract（参考訳）: 本稿では,多言語事前学習パラダイムにおける適合型アーキテクチャを実験し,言語識別のための従来の自己教師ありアプローチを拡張する。事前学習した音声モデルは下層における言語識別情報を最適に符号化する。さらに,これらの層から得られた埋め込みは,追加の学習をすることなく,未知の言語や異なる音響環境を分類する上で極めて頑健であることを示す。 VoxLingua107データセット上で事前学習したコンバータモデルを微調整した後、言語識別のための現在の最先端システムと同様の結果が得られる。さらに、我々のモデルは5倍のパラメータでこれを達成する。 NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。

関連論文リスト

Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [2.9998889086656586]
本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-12T12:04:05Z)
Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文参考訳（メタデータ） (2024-05-08T00:18:56Z)
Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文参考訳（メタデータ） (2024-04-08T11:55:44Z)
Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文参考訳（メタデータ） (2022-06-25T12:36:11Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文参考訳（メタデータ） (2020-12-07T17:14:52Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文参考訳（メタデータ） (2020-09-29T16:12:52Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Learning Spoken Language Representations with Neural Lattice Language Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文参考訳（メタデータ） (2020-07-06T10:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。