Fugu-MT 論文翻訳(概要): Multilingual Speech Recognition using Knowledge Transfer across Learning Processes

論文の概要: Multilingual Speech Recognition using Knowledge Transfer across Learning Processes

arxiv url: http://arxiv.org/abs/2110.07909v1
Date: Fri, 15 Oct 2021 07:50:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 01:05:50.404035
Title: Multilingual Speech Recognition using Knowledge Transfer across Learning Processes
Title（参考訳）: 学習プロセス間の知識伝達を用いた多言語音声認識
Authors: Rimita Lahiri, Kenichi Kumatani, Eric Sun and Yao Qian
Abstract要約: 実験結果から,WER全体の3.55%の相対的な減少が得られた。 LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
参考スコア（独自算出の注目度）: 15.927513451432946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual end-to-end(E2E) models have shown a great potential in the expansion of the language coverage in the realm of automatic speech recognition(ASR). In this paper, we aim to enhance the multilingual ASR performance in two ways, 1)studying the impact of feeding a one-hot vector identifying the language, 2)formulating the task with a meta-learning objective combined with self-supervised learning (SSL). We associate every language with a distinct task manifold and attempt to improve the performance by transferring knowledge across learning processes itself as compared to transferring through final model parameters. We employ this strategy on a dataset comprising of 6 languages for an in-domain ASR task, by minimizing an objective related to expected gradient path length. Experimental results reveal the best pre-training strategy resulting in 3.55% relative reduction in overall WER. A combination of LEAP and SSL yields 3.51% relative reduction in overall WER when using language ID.
Abstract（参考訳）: 多言語エンド・ツー・エンド(e2e)モデルは、自動音声認識(asr)の分野で言語範囲を拡大する大きな可能性を示している。本稿では,1)言語を識別する1ホットベクトルの摂食の影響,2)自己教師付き学習(SSL)を組み合わせたメタ学習目標によるタスクの定式化,の2つの方法による多言語ASRの性能向上を目指す。我々は,各言語を個別のタスク多様体に関連付け,学習プロセス自体の知識を最終モデルパラメータの伝達と比較することにより,性能の向上を図る。我々は,この戦略を,期待される勾配経路長に関連する目標を最小化することにより,ドメイン内ASRタスクのための6言語からなるデータセットに適用する。実験の結果,WER全体の3.55%の相対的な減少が得られた。 leap と ssl の組み合わせは、言語 id を使用する場合全体の wer を 3.51% 削減する。

関連論文リスト

LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models [3.5297361401370053]
そこで我々は,Large Language Models (LLMs) を利用した多用途フレームワークを導入し,実データから生成された擬似ラベルを補正する。 LESSフレームワーク内では、教師なしデータのASR(Automatic Speech Recognition)またはAST(Automatic Speech Translation)からの擬似ラベル付きテキストをLLMにより洗練する。マンダリンASRとスペイン語と英語のASTの両タスクの実験は、LESSが3.77%の絶対的なWER削減を達成したことを示している。
論文参考訳（メタデータ） (2025-06-05T03:00:04Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文参考訳（メタデータ） (2024-09-13T14:35:47Z)
Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文参考訳（メタデータ） (2023-12-18T06:40:24Z)
Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文参考訳（メタデータ） (2023-06-02T23:04:19Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
Persian Natural Language Inference: A Meta-learning approach [6.832341432995628]
本稿では,ペルシャ語で自然言語を推論するメタラーニング手法を提案する。提案手法を4つの言語と補助課題を用いて評価する。
論文参考訳（メタデータ） (2022-05-18T06:51:58Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文参考訳（メタデータ） (2021-10-09T07:00:38Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)
On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文参考訳（メタデータ） (2020-07-31T10:58:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。