論文の概要: Adversarial Training For Low-Resource Disfluency Correction
- arxiv url: http://arxiv.org/abs/2306.06384v1
- Date: Sat, 10 Jun 2023 08:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:13:36.280607
- Title: Adversarial Training For Low-Resource Disfluency Correction
- Title(参考訳): 低リソース拡散補正のための逆トレーニング
- Authors: Vineet Bhat, Preethi Jyothi and Pushpak Bhattacharyya
- Abstract要約: ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
- 参考スコア(独自算出の注目度): 50.51901599433536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disfluencies commonly occur in conversational speech. Speech with
disfluencies can result in noisy Automatic Speech Recognition (ASR)
transcripts, which affects downstream tasks like machine translation. In this
paper, we propose an adversarially-trained sequence-tagging model for
Disfluency Correction (DC) that utilizes a small amount of labeled real
disfluent data in conjunction with a large amount of unlabeled data. We show
the benefit of our proposed technique, which crucially depends on synthetically
generated disfluent data, by evaluating it for DC in three Indian languages-
Bengali, Hindi, and Marathi (all from the Indo-Aryan family). Our technique
also performs well in removing stuttering disfluencies in ASR transcripts
introduced by speech impairments. We achieve an average 6.15 points improvement
in F1-score over competitive baselines across all three languages mentioned. To
the best of our knowledge, we are the first to utilize adversarial training for
DC and use it to correct stuttering disfluencies in English, establishing a new
benchmark for this task.
- Abstract(参考訳): 分散は会話音声でよく起こる。
障害のある音声は、機械翻訳のような下流のタスクに影響を与えるノイズの多い自動音声認識(ASR)の書き起こしをもたらす可能性がある。
本稿では,少量のラベル付き実データと大量のラベル付き非ラベル付きデータとを併用した,逆向きに訓練されたDisfluency Correction(DC)のシーケンスタギングモデルを提案する。
提案手法は,インド三言語ベンガル語,ヒンディー語,マラティ語(すべてインド・アーリア語族出身)のdcに対して評価することで,合成的に生成した不流動データに大きく依存する。
また,本手法は,音声障害によって導入されたASR文字の発声障害の除去にも有効である。
3つの言語で比較して,f1-scoreにおける平均6.15ポイントの改善を達成した。
我々の知識を最大限に活用するために、我々はdcの敵対的トレーニングを最初に活用し、それを英語の混乱を正すために使用し、このタスクの新しいベンチマークを確立しました。
関連論文リスト
- DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages [68.66827612799577]
ディフルエンシ補正(Disfluency correction, DC)とは、話し言葉からフィラー、繰り返し、訂正などの不適切な要素を取り除き、読みやすく解釈可能なテキストを作成する過程である。
Indo-Europeanの4つの重要な言語(英語、ヒンディー語、ドイツ語、フランス語)を網羅した、高品質な人間の注釈付きDCコーパスを提示する。
最新の機械翻訳(MT)システムと併用した場合,DCはBLEUスコアを平均5.65ポイント増加させることを示す。
論文 参考訳(メタデータ) (2023-10-25T16:32:02Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - Improved Robustness to Disfluencies in RNN-Transducer Based Speech
Recognition [1.8702587873591643]
RNN-T ASRの発話障害に対する堅牢性向上を目的としたデータ選択と準備選択を検討する。
学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。
論文 参考訳(メタデータ) (2020-12-11T11:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。