論文の概要: Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices
- arxiv url: http://arxiv.org/abs/2406.02562v1
- Date: Wed, 24 Apr 2024 01:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:10:07.879683
- Title: Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices
- Title(参考訳): 低比デバイス上での符号化自動音声認識のためのGated Low-rank Adaptation
- Authors: Gwantae Kim, Bokyeung Lee, Donghyeon Kim, Hanseok Ko,
- Abstract要約: 性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
- 参考スコア(独自算出の注目度): 28.06179341376626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent times, there has been a growing interest in utilizing personalized large models on low-spec devices, such as mobile and CPU-only devices. However, utilizing a personalized large model in the on-device is inefficient, and sometimes limited due to computational cost. To tackle the problem, this paper presents the weights separation method to minimize on-device model weights using parameter-efficient fine-tuning methods. Moreover, some people speak multiple languages in an utterance, as known as code-switching, the personalized ASR model is necessary to address such cases. However, current multilingual speech recognition models are limited to recognizing a single language within each utterance. To tackle this problem, we propose code-switching speech recognition models that incorporate fine-tuned monolingual and multilingual speech recognition models. Additionally, we introduce a gated low-rank adaptation(GLoRA) for parameter-efficient fine-tuning with minimal performance degradation. Our experiments, conducted on Korean-English code-switching datasets, demonstrate that fine-tuning speech recognition models for code-switching surpasses the performance of traditional code-switching speech recognition models trained from scratch. Furthermore, GLoRA enhances parameter-efficient fine-tuning performance compared to conventional LoRA.
- Abstract(参考訳): 近年、モバイルやCPU専用デバイスなどの低スペックデバイスでパーソナライズされた大規模モデルの利用に対する関心が高まっている。
しかし、オンデバイスでパーソナライズされた大規模モデルを利用することは非効率であり、時には計算コストのために制限される。
そこで本研究では,パラメータ効率のよい微調整法を用いて,デバイス上のモデル重みを最小化する重み分離手法を提案する。
さらに、コードスイッチング(code-switching)として知られる発話で複数の言語を話す人もいるため、このようなケースに対処するにはパーソナライズされたASRモデルが必要である。
しかし、現在の多言語音声認識モデルは、発話毎に単一の言語を認識することに限定されている。
この問題に対処するため,単言語モデルと多言語音声認識モデルを組み合わせたコードスイッチング音声認識モデルを提案する。
さらに,パラメータ効率のよい微調整のためのゲートローランク適応(GLoRA)を導入し,性能劣化を最小限に抑えた。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
さらに、GLoRAは従来のLoRAと比較してパラメータ効率の良い微調整性能を向上させる。
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation [13.16188747098854]
本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
論文 参考訳(メタデータ) (2023-09-14T01:07:36Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification [0.013428344011390777]
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。
認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
論文 参考訳(メタデータ) (2021-08-04T12:59:53Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。