論文の概要: A meta learning scheme for fast accent domain expansion in Mandarin
speech recognition
- arxiv url: http://arxiv.org/abs/2307.12262v1
- Date: Sun, 23 Jul 2023 08:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:59:26.068124
- Title: A meta learning scheme for fast accent domain expansion in Mandarin
speech recognition
- Title(参考訳): マンダリン音声認識における高速アクセント領域拡張のためのメタ学習方式
- Authors: Ziwei Zhu, Changhao Shan, Bihong Zhang, Jian Yu
- Abstract要約: 音声言語は、マンダリンとアクセントに有意な変化を示す。
マンダリン自動音声認識(ASR)の性能は高いが,アクセントASRは依然として課題である。
マンダリン音声認識における高速アクセント領域拡張のためのメタラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 22.126817828698563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken languages show significant variation across mandarin and accent.
Despite the high performance of mandarin automatic speech recognition (ASR),
accent ASR is still a challenge task. In this paper, we introduce meta-learning
techniques for fast accent domain expansion in mandarin speech recognition,
which expands the field of accents without deteriorating the performance of
mandarin ASR. Meta-learning or learn-to-learn can learn general relation in
multi domains not only for over-fitting a specific domain. So we select
meta-learning in the domain expansion task. This more essential learning will
cause improved performance on accent domain extension tasks. We combine the
methods of meta learning and freeze of model parameters, which makes the
recognition performance more stable in different cases and the training faster
about 20%. Our approach significantly outperforms other methods about 3%
relatively in the accent domain expansion task. Compared to the baseline model,
it improves relatively 37% under the condition that the mandarin test set
remains unchanged. In addition, it also proved this method to be effective on a
large amount of data with a relative performance improvement of 4% on the
accent test set.
- Abstract(参考訳): 音声言語は、マンダリンとアクセントに大きな変化を示す。
マンダリン自動音声認識(ASR)の性能は高いが,アクセントASRは依然として課題である。
本稿では,マンダリンasrの性能を損なうことなくアクセントの分野を拡大する,マンダリン音声認識におけるアクセント領域の高速拡張のためのメタラーニング手法を提案する。
メタラーニング(meta-learning)やlearn-to-learn(learning-to-learn)は、特定のドメインをオーバーフィットするだけでなく、複数のドメインで一般的な関係を学ぶことができる。
そこでドメイン拡張タスクでメタラーニングを選択する。
このより本質的な学習はアクセントドメイン拡張タスクのパフォーマンスを改善する。
モデルパラメータのメタ学習と凍結の手法を組み合わせることで、異なるケースで認識性能がより安定し、トレーニングが約20%高速になる。
本手法はアクセント領域拡張タスクにおいて,他の手法を約3%上回っている。
ベースラインモデルと比較して、マンダリン試験セットが変化しない条件下では比較的37%改善する。
さらに,この手法はアクセントテストセット上での相対的な性能改善を4%とした大量のデータに対して有効であることを示した。
関連論文リスト
- A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition [1.8377902806196766]
最高のパフォーマンスの音声モデルは、彼らが目的とする言語で大量のデータに基づいて訓練される。
ほとんどの言語はスパースデータを持ち、トレーニングモデルを困難にしている。
本研究は、限られたデータ、特に音声感情認識のためのモデルの性能について考察する。
論文 参考訳(メタデータ) (2024-10-06T21:33:51Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - Improving Accented Speech Recognition with Multi-Domain Training [2.28438857884398]
我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
論文 参考訳(メタデータ) (2023-03-14T14:10:16Z) - Persian Natural Language Inference: A Meta-learning approach [6.832341432995628]
本稿では,ペルシャ語で自然言語を推論するメタラーニング手法を提案する。
提案手法を4つの言語と補助課題を用いて評価する。
論文 参考訳(メタデータ) (2022-05-18T06:51:58Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。