論文の概要: End-to-End Integration of Speech Recognition, Speech Enhancement, and
Self-Supervised Learning Representation
- arxiv url: http://arxiv.org/abs/2204.00540v1
- Date: Fri, 1 Apr 2022 16:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:25:47.171458
- Title: End-to-End Integration of Speech Recognition, Speech Enhancement, and
Self-Supervised Learning Representation
- Title(参考訳): 音声認識・音声強調・自己教師あり学習表現のエンドツーエンド統合
- Authors: Xuankai Chang, Takashi Maekaku, Yuya Fujita, Shinji Watanabe
- Abstract要約: 本研究では,ロバスト音声認識をターゲットとしたエンドツーエンド(E2E)自動音声認識(ASR)モデルを提案する。
従来のE2E ASRモデルと比較して、提案したE2Eモデルは2つの重要なモジュールを統合する。
IRISモデルは、単一チャネルCHiME-4ベンチマークの文献で報告された最高の性能を達成する。
- 参考スコア(独自算出の注目度): 36.66970917185465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents our end-to-end (E2E) automatic speech recognition (ASR)
model targetting at robust speech recognition, called Integraded speech
Recognition with enhanced speech Input for Self-supervised learning
representation (IRIS). Compared with conventional E2E ASR models, the proposed
E2E model integrates two important modules including a speech enhancement (SE)
module and a self-supervised learning representation (SSLR) module. The SE
module enhances the noisy speech. Then the SSLR module extracts features from
enhanced speech to be used for speech recognition (ASR). To train the proposed
model, we establish an efficient learning scheme. Evaluation results on the
monaural CHiME-4 task show that the IRIS model achieves the best performance
reported in the literature for the single-channel CHiME-4 benchmark (2.0% for
the real development and 3.9% for the real test) thanks to the powerful
pre-trained SSLR module and the fine-tuned SE module.
- Abstract(参考訳): 本研究は, 自己教師型学習表現(IRIS)を用いた統合音声認識(Integrated Speech Recognition)と呼ばれる, 頑健な音声認識をターゲットとしたエンドツーエンド自動音声認識(ASR)モデルを提案する。
従来のE2E ASRモデルと比較して,提案モデルでは音声強調(SE)モジュールと自己教師付き学習表現(SSLR)モジュールの2つの重要なモジュールを統合している。
SEモジュールはノイズの多い音声を強化する。
次に、SSLRモジュールは、音声認識(ASR)に使用される拡張音声から特徴を抽出する。
提案モデルを学習するために,効率的な学習手法を確立する。
モナウラルCHiME-4タスクの評価結果から,IRISモデルは単一チャネルCHiME-4ベンチマーク(実開発では2.0%,実テストでは3.9%)において,強力なトレーニング済みSSLRモジュールと微調整SEモジュールのおかげで,文献で報告された最高の性能を達成することが示された。
関連論文リスト
- Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio [45.04646762560459]
話者分散自動音声認識(SA-ASR)は、マルチトーカー録音から「誰が何を話したか」を識別するタスクである。
共同最適化を考えると、最近、シミュレーションデータに有望な結果をもたらすエンド・ツー・エンド(E2E)SA-ASRモデルが提案されている。
本報告では,SA-ASRに対するモジュラーおよびジョイントアプローチの比較を行った。
論文 参考訳(メタデータ) (2021-07-06T19:36:48Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings [40.99930744000231]
話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
論文 参考訳(メタデータ) (2020-08-11T06:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。