論文の概要: DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction
- arxiv url: http://arxiv.org/abs/2305.16957v1
- Date: Fri, 26 May 2023 14:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:25:20.026338
- Title: DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction
- Title(参考訳): DisfluencyFixer: 音声から音声への拡散補正による言語学習を強化するツール
- Authors: Vineet Bhat, Preethi Jyothi and Pushpak Bhattacharyya
- Abstract要約: DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
- 参考スコア(独自算出の注目度): 50.51901599433536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational speech often consists of deviations from the speech plan,
producing disfluent utterances that affect downstream NLP tasks. Removing these
disfluencies is necessary to create fluent and coherent speech. This paper
presents DisfluencyFixer, a tool that performs speech-to-speech disfluency
correction in English and Hindi using a pipeline of Automatic Speech
Recognition (ASR), Disfluency Correction (DC) and Text-To-Speech (TTS) models.
Our proposed system removes disfluencies from input speech and returns fluent
speech as output along with its transcript, disfluency type and total
disfluency count in source utterance, providing a one-stop destination for
language learners to improve the fluency of their speech. We evaluate the
performance of our tool subjectively and receive scores of 4.26, 4.29 and 4.42
out of 5 in ASR performance, DC performance and ease-of-use of the system. Our
tool can be accessed openly at the following link.
- Abstract(参考訳): 会話音声は、しばしば音声計画からの逸脱からなり、下流のNLPタスクに影響を及ぼす不適切な発話を生成する。
流動的で一貫性のあるスピーチを作るには、これらの障害を取り除く必要がある。
本稿では,ASR,Disfluency Correction(DC),Text-To-Speech(TTS)モデルのパイプラインを用いて,英語とヒンディー語で音声から音声への不一致を補正するツールであるDisfluencyFixerを提案する。
提案システムは,入力音声からの拡散を除去し,その書き起こし,拡散型および全拡散数とともに出力として流音を返却し,学習者の発話の流音を改善するためのワンストップ目的地を提供する。
提案ツールの性能を主観的に評価し,ASR性能,DC性能,使いやすさの5点中4.26,4.29,4.42点のスコアを得た。
当社のツールは、以下のリンクで公開アクセス可能です。
関連論文リスト
- Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z) - UWSpeech: Speech to Speech Translation for Unwritten Languages [145.37116196042282]
UWSpeechと名づけられた非書き言語のための翻訳システムを開発し、対象の非書き言語をコンバータで個別のトークンに変換する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を言語間音声認識(XL)で拡張するXL-VAE法を提案する。
スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは、それぞれ16点と10点のBLEUポイントで直接翻訳とVQ-VAEベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-14T15:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。