論文の概要: Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses
- arxiv url: http://arxiv.org/abs/2006.00703v1
- Date: Mon, 1 Jun 2020 04:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:35:53.309384
- Title: Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses
- Title(参考訳): 音響表現とasr仮説を組み合わせたストリーミング言語識別
- Authors: Chander Chandak, Zeynab Raeesy, Ariya Rastrow, Yuzong Liu, Xiangyang
Huang, Siyu Wang, Dong Kwon Joo, Roland Maas
- Abstract要約: 多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
- 参考スコア(独自算出の注目度): 13.976935216584298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our modeling and architecture approaches for building a
highly accurate low-latency language identification system to support
multilingual spoken queries for voice assistants. A common approach to solve
multilingual speech recognition is to run multiple monolingual ASR systems in
parallel and rely on a language identification (LID) component that detects the
input language. Conventionally, LID relies on acoustic only information to
detect input language. We propose an approach that learns and combines acoustic
level representations with embeddings estimated on ASR hypotheses resulting in
up to 50% relative reduction of identification error rate, compared to a model
that uses acoustic only features. Furthermore, to reduce the processing cost
and latency, we exploit a streaming architecture to identify the spoken
language early when the system reaches a predetermined confidence level,
alleviating the need to run multiple ASR systems until the end of input query.
The combined acoustic and text LID, coupled with our proposed streaming runtime
architecture, results in an average of 1500ms early identification for more
than 50% of utterances, with almost no degradation in accuracy. We also show
improved results by adopting a semi-supervised learning (SSL) technique using
the newly proposed model architecture as a teacher model.
- Abstract(参考訳): 本稿では,音声アシスタントのための多言語音声クエリをサポートするために,高精度な低レイテンシ言語識別システムを構築するためのモデリングとアーキテクチャ手法を提案する。
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行し、入力言語を検出する言語識別(LID)コンポーネントに依存することである。
従来、LIDは入力言語を検出するための音響のみの情報に依存していた。
本研究では,音響のみの特徴を用いたモデルと比較して,音響レベルの表現とASR仮説に基づく埋め込みを学習・組み合わせることで,識別誤り率を最大50%低減する手法を提案する。
さらに,処理コストとレイテンシを低減するため,入力クエリの終了まで複数のASRシステムを実行する必要性を軽減し,システムが所定の信頼レベルに達する早期に音声言語を特定するために,ストリーミングアーキテクチャを利用する。
提案するストリーミングランタイムアーキテクチャと組み合わされた音響とテキストの蓋を組み合わせると、平均1500msの早期識別が発話の50%以上となり、ほぼ精度が低下することはない。
また,教師モデルとして新たに提案したモデルアーキテクチャを用いて,半教師付き学習(SSL)技術を適用した。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。