論文の概要: Toward Cross-Domain Speech Recognition with End-to-End Models
- arxiv url: http://arxiv.org/abs/2003.04194v1
- Date: Mon, 9 Mar 2020 15:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:43:19.793812
- Title: Toward Cross-Domain Speech Recognition with End-to-End Models
- Title(参考訳): エンド・ツー・エンドモデルを用いたクロスドメイン音声認識
- Authors: Thai-Son Nguyen, Sebastian St\"uker, Alex Waibel
- Abstract要約: 本稿では,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の差異を実験的に検討する。
ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。
シーケンスベースの基準に最適化されたエンドツーエンドモデルは、多様なドメインのハイブリッドモデルよりも一般化されている。
- 参考スコア(独自算出の注目度): 18.637636841477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the area of multi-domain speech recognition, research in the past focused
on hybrid acoustic models to build cross-domain and domain-invariant speech
recognition systems. In this paper, we empirically examine the difference in
behavior between hybrid acoustic models and neural end-to-end systems when
mixing acoustic training data from several domains. For these experiments we
composed a multi-domain dataset from public sources, with the different domains
in the corpus covering a wide variety of topics and acoustic conditions such as
telephone conversations, lectures, read speech and broadcast news. We show that
for the hybrid models, supplying additional training data from other domains
with mismatched acoustic conditions does not increase the performance on
specific domains. However, our end-to-end models optimized with sequence-based
criterion generalize better than the hybrid models on diverse domains. In term
of word-error-rate performance, our experimental acoustic-to-word and
attention-based models trained on multi-domain dataset reach the performance of
domain-specific long short-term memory (LSTM) hybrid models, thus resulting in
multi-domain speech recognition systems that do not suffer in performance over
domain specific ones. Moreover, the use of neural end-to-end models eliminates
the need of domain-adapted language models during recognition, which is a great
advantage when the input domain is unknown.
- Abstract(参考訳): マルチドメイン音声認識の分野では、これまでクロスドメインおよびドメイン不変音声認識システムを構築するためのハイブリッド音響モデルに重点を置いてきた。
本稿では,複数領域の音響訓練データを混合する場合に,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の違いを実験的に検討する。
これらの実験のために,電話会話,講義,音声読取,ニュース放送など,さまざまな話題や音響条件をカバーするコーパス内の異なるドメインを,公開ソースから多領域データセットとして構成した。
ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。
しかし、シーケンスベースの基準を最適化したエンドツーエンドモデルは、多様なドメイン上のハイブリッドモデルよりも一般化しています。
単語誤り率性能の面では,複数ドメインデータセットで学習した音響-単語間および注意に基づくモデルが,ドメイン固有長短期記憶(lstm)ハイブリッドモデルの性能に到達し,ドメイン固有言語よりも性能に支障をきたさないマルチドメイン音声認識システムを実現する。
さらに、ニューラルエンド・ツー・エンドモデルを使用することで、認識中にドメイン対応言語モデルの必要性がなくなるため、入力領域が不明な場合には大きなメリットがある。
関連論文リスト
- Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - Domain Private Transformers for Multi-Domain Dialog Systems [2.7013801448234367]
本稿では、条件付き言語モデルがドメイン間でリークする確率を定量化する新しい方法として、ドメインプライバシを提案する。
メンバシップ推論攻撃実験により,本手法は,近年の微分プライベート言語モデルに応用された手法に匹敵するレジリエンスを有することが示された。
論文 参考訳(メタデータ) (2023-05-23T16:27:12Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。