論文の概要: Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification
- arxiv url: http://arxiv.org/abs/2108.02034v1
- Date: Wed, 4 Aug 2021 12:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 17:23:10.137844
- Title: Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification
- Title(参考訳): Dyn-ASR:音声によるコンパクト多言語音声認識とアクセント同定
- Authors: Sangeeta Ghangam, Daniel Whitenack, Joshua Nemecek
- Abstract要約: エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。
認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
- 参考スコア(独自算出の注目度): 0.013428344011390777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Running automatic speech recognition (ASR) on edge devices is non-trivial due
to resource constraints, especially in scenarios that require supporting
multiple languages. We propose a new approach to enable multilingual speech
recognition on edge devices. This approach uses both language identification
and accent identification to select one of multiple monolingual ASR models
on-the-fly, each fine-tuned for a particular accent. Initial results for both
recognition performance and resource usage are promising with our approach
using less than 1/12th of the memory consumed by other solutions.
- Abstract(参考訳): エッジデバイス上で自動音声認識(ASR)を実行するのは、特に複数の言語をサポートする必要のあるシナリオにおいて、リソースの制約のために簡単ではない。
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、特定のアクセントに対して微調整された複数の単言語ASRモデルの1つを選択する。
認識性能とリソース使用量の両方の最初の結果は、他のソリューションが消費するメモリの12分の1以下を使用したアプローチで有望である。
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。