論文の概要: Improving Semi-supervised End-to-end Automatic Speech Recognition using
CycleGAN and Inter-domain Losses
- arxiv url: http://arxiv.org/abs/2210.11642v1
- Date: Thu, 20 Oct 2022 23:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:45:18.940666
- Title: Improving Semi-supervised End-to-end Automatic Speech Recognition using
CycleGAN and Inter-domain Losses
- Title(参考訳): cycleganとドメイン間損失を用いた半教師付きエンドツーエンド自動音声認識の改善
- Authors: Chia-Yu Li and Ngoc Thang Vu
- Abstract要約: 本稿では,半教師付きエンドツーエンド音声認識におけるCycleGANとドメイン間損失を組み合わせた新しい手法を提案する。
我々は、ドメイン間損失とCycleGANの両方の利点を利用して、未ペア音声とテキスト入力のより良い共有表現を実現する。
- 参考スコア(独自算出の注目度): 31.81196580582969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method that combines CycleGAN and inter-domain losses for
semi-supervised end-to-end automatic speech recognition. Inter-domain loss
targets the extraction of an intermediate shared representation of speech and
text inputs using a shared network. CycleGAN uses cycle-consistent loss and the
identity mapping loss to preserve relevant characteristics of the input feature
after converting from one domain to another. As such, both approaches are
suitable to train end-to-end models on unpaired speech-text inputs. In this
paper, we exploit the advantages from both inter-domain loss and CycleGAN to
achieve better shared representation of unpaired speech and text inputs and
thus improve the speech-to-text mapping. Our experimental results on the WSJ
eval92 and Voxforge (non English) show 8~8.5% character error rate reduction
over the baseline, and the results on LibriSpeech test_clean also show
noticeable improvement.
- Abstract(参考訳): 半教師付きエンドツーエンド自動音声認識におけるサイクルガンとドメイン間損失を組み合わせた新しい手法を提案する。
ドメイン間損失は、共有ネットワークを用いた音声とテキストの中間的共有表現の抽出を目標とする。
CycleGANは、あるドメインから別のドメインへの変換後の入力特徴の関連性を維持するために、サイクル一貫性損失とアイデンティティマッピング損失を使用する。
このように、両手法は、未ペア音声テキスト入力のエンドツーエンドモデルを訓練するのに適している。
本稿では、ドメイン間損失とサイクガンの両方の利点を生かして、非ペア音声とテキスト入力のより良い共有表現を実現し、音声対テキストマッピングを改善した。
WSJ eval92 と Voxforge (ノンイングリッシュ) の実験結果から, 基準値よりも8~8.5% の文字誤り率を低減し, また, LibriSpeech test_clean の精度も向上した。
関連論文リスト
- Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。
提案手法は,チャネル抽出技術とGANの相乗効果を利用する。
台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文 参考訳(メタデータ) (2024-09-19T01:02:31Z) - Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses [28.74405969209494]
雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
本稿では,半教師付きエンド・ツー・エンド音声認識の極端な事例として,ペア音声,ラベルなし音声,豊富な外部テキストが存在することを考察する。
論文 参考訳(メタデータ) (2024-07-26T10:57:06Z) - Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition [44.914084799875866]
タスクベクトル算術は音声認識における合成と現実のギャップを軽減するのに有効であることを示す。
提案手法であるSyn2REALは,ベースラインよりも単語誤り率を平均10.03%改善することを示す。
論文 参考訳(メタデータ) (2024-06-05T04:25:56Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。