論文の概要: Language Bias in Self-Supervised Learning For Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.19321v1
- Date: Fri, 31 Jan 2025 17:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:49.824775
- Title: Language Bias in Self-Supervised Learning For Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための自己教師付き学習における言語バイアス
- Authors: Edward Storey, Naomi Harte, Peter Bell,
- Abstract要約: 自己教師付き学習(SSL)は、データの高価なラベル付けを必要とせずに、大規模なデータセットでトレーニングするためにディープラーニングで使用される。
本稿では,XLS-Rにおける言語特化作業を特定し,様々な言語上での言語特化作業の性能を検証する。
- 参考スコア(独自算出の注目度): 15.976590369684464
- License:
- Abstract: Self-supervised learning (SSL) is used in deep learning to train on large datasets without the need for expensive labelling of the data. Recently, large Automatic Speech Recognition (ASR) models such as XLS-R have utilised SSL to train on over one hundred different languages simultaneously. However, deeper investigation shows that the bulk of the training data for XLS-R comes from a small number of languages. Biases learned through SSL have been shown to exist in multiple domains, but language bias in multilingual SSL ASR has not been thoroughly examined. In this paper, we utilise the Lottery Ticket Hypothesis (LTH) to identify language-specific subnetworks within XLS-R and test the performance of these subnetworks on a variety of different languages. We are able to show that when fine-tuning, XLS-R bypasses traditional linguistic knowledge and builds only on weights learned from the languages with the largest data contribution to the pretraining data.
- Abstract(参考訳): 自己教師付き学習(SSL)は、データの高価なラベル付けを必要とせずに、大規模なデータセットでトレーニングするためにディープラーニングで使用される。
近年、XLS-Rのような大規模な自動音声認識(ASR)モデルでは、SSLを使用して100以上の異なる言語を同時にトレーニングしている。
しかしながら、より深い調査により、XLS-Rのトレーニングデータの大部分は、少数の言語に由来することが示されている。
SSLを通じて学習されたバイアスは複数のドメインに存在することが示されているが、多言語SSL ASRにおける言語バイアスは十分に調べられていない。
本稿では、LTH(Lottery Ticket hypothesis)を用いて、XLS-R内の言語固有のサブネットを特定し、これらのサブネットワークの性能を様々な言語で検証する。
微調整を行う場合、XLS-Rは従来の言語知識をバイパスし、事前学習データに最大の貢献をする言語から学んだ重みのみに基づいて構築されることを示すことができる。
関連論文リスト
- How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR [0.2676349883103404]
インドのような言語的に多様な国で、多言語自動音声認識システムを構築することは、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
CLSに基づく多言語ASRモデルの性能向上のために,新しいアプローチを探索し,比較した。
論文 参考訳(メタデータ) (2023-05-31T06:09:11Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset [18.389328059694037]
本研究では,英語,フランス語,ドイツ語,スペイン語の4言語で並列なSRLコーパスを自動構築する手法を提案する。
我々は,投影品質を測定するために使用する有能なテストセットを含め,プロジェクションが強いベースラインよりも密度が高く,精度が高いことを示す。最後に,モノリンガルSRLとマルチリンガルSRLのための新しいコーパスで異なるSOTAモデルを訓練し,多言語アノテーションが特に弱い言語の性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-05T13:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。