論文の概要: INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced
Non-Native Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.16371v1
- Date: Thu, 25 May 2023 13:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:55:29.228416
- Title: INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced
Non-Native Speech Recognition
- Title(参考訳): intapt:非ネイティブ音声認識の強化のための情報理論的対向プロンプトチューニング
- Authors: Eunseop Yoon, Hee Suk Yoon, John Harvill, Mark Hasegawa-Johnson and
Chang D. Yoo
- Abstract要約: 本稿では,自動音声認識システムにおける表現バイアスを軽減するために,インタプタ(Information Theoretic Adversarial Prompt Tuning)を提案する。
インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小限に抑えるトレーニング,の2つの方法で同時に訓練される。
実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。
- 参考スコア(独自算出の注目度): 43.228070238684786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems have attained unprecedented
performance with large speech models pre-trained based on self-supervised
speech representation learning. However, these pre-trained speech models suffer
from representational bias as they tend to better represent those prominent
accents (i.e., native (L1) English accent) in the pre-training speech corpus
than less represented accents, resulting in a deteriorated performance for
non-native (L2) English accents. Although there have been some approaches to
mitigate this issue, all of these methods require updating the pre-trained
model weights. In this paper, we propose Information Theoretic Adversarial
Prompt Tuning (INTapt), which introduces prompts concatenated to the original
input that can re-modulate the attention of the pre-trained model such that the
corresponding input resembles a native (L1) English speech without updating the
backbone weights. INTapt is trained simultaneously in the following two
manners: (1) adversarial training to reduce accent feature dependence between
the original input and the prompt-concatenated input and (2) training to
minimize CTC loss for improving ASR performance to a prompt-concatenated input.
Experimental results show that INTapt improves the performance of L2 English
and increases feature similarity between L2 and L1 accents.
- Abstract(参考訳): 自動音声認識(ASR)システムは、自己教師付き音声表現学習に基づいて事前訓練された大規模な音声モデルを用いて、前例のない性能を達成した。
しかしながら、これらの事前訓練された音声モデルは、あまり表現されないアクセントよりも、事前訓練された音声コーパスにおける顕著なアクセント(L1)英語アクセント)を表現しやすい傾向にあるため、表現バイアスに悩まされ、非ネイティブ(L2)英語アクセントのパフォーマンスが低下する。
この問題を軽減するためのアプローチはいくつかあるが、これらの手法はすべて、事前訓練されたモデルの重みを更新する必要がある。
本稿では,前訓練モデルの注意を,バックボーン重みを更新せずにネイティブ(l1)英語音声に類似させるように再調整可能な,元の入力に連結されたプロンプトを導入する情報理論的逆向プロンプトチューニング(intapt)を提案する。
インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小化するためのトレーニングの2つの方法で同時に訓練される。
実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。
関連論文リスト
- Unveiling the Role of Pretraining in Direct Speech Translation [14.584351239812394]
我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:46:46Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。