論文の概要: Automatic Restoration of Diacritics for Speech Data Sets
- arxiv url: http://arxiv.org/abs/2311.10771v1
- Date: Wed, 15 Nov 2023 19:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:33:13.943749
- Title: Automatic Restoration of Diacritics for Speech Data Sets
- Title(参考訳): 音声データセットのためのダイアクリティカルティクスの自動復元
- Authors: Sara Shatnawi, Sawsan Alqahtani, Hanan Aldarmaki
- Abstract要約: パラレル音声を用いた音声データに適用することで,自動発音復元の性能向上の可能性を検討する。
我々は、比較的少量のアラビア語音声データに基づいて、事前学習したWhisper ASRモデルを用いて、音声発話に粗い発音書き起こしを生成する。
提案モデルでは、同一領域内および2つのドメイン外テストセットにおいて、少なくとも5%のダイアクリティカルエラー率の絶対的な削減を図りながら、同等のテキストのみのモデルと比較して、ダイアクリティカルリカバリ性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 2.0380389539573662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic text-based diacritic restoration models generally have high
diacritic error rates when applied to speech transcripts as a result of domain
and style shifts in spoken language. In this work, we explore the possibility
of improving the performance of automatic diacritic restoration when applied to
speech data by utilizing the parallel spoken utterances. In particular, we use
the pre-trained Whisper ASR model fine-tuned on relatively small amounts of
diacritized Arabic speech data to produce rough diacritized transcripts for the
speech utterances, which we then use as an additional input for a
transformer-based diacritic restoration model. The proposed model consistently
improve diacritic restoration performance compared to an equivalent text-only
model, with at least 5\% absolute reduction in diacritic error rate within the
same domain and on two out-of-domain test sets. Our results underscore the
inadequacy of current text-based diacritic restoration models for speech data
sets and provide a new baseline for speech-based diacritic restoration.
- Abstract(参考訳): 自動テキストベースのダイアクリティック復元モデルは、音声言語におけるドメインとスタイルシフトの結果、音声書き起こしに適用した場合に高いダイアクリティック誤り率を持つ。
本研究では,並列発話を用いた音声データに適用することで,自動ダイアクリティカルス復元の性能を向上させる可能性について検討する。
特に、比較的少量のアラビア語音声データに基づいて微調整された事前学習されたWhisper ASRモデルを用いて、音声発話の粗い発音書き起こしを生成し、変換器に基づく発音復元モデルに追加入力として使用する。
提案モデルは,同一領域内および2つの領域外テストセットにおいて,少なくとも5\%の絶対誤差率を低下させるとともに,同等のテキストのみモデルと比較して,ダイアクリティカル修復性能を一貫して向上させる。
本研究は, 音声データセットに対するテキストベースダイアクリティック復元モデルの不適切さと, 音声ベースダイアクリティック復元のための新たなベースラインを提供するものである。
関連論文リスト
- Spontaneous Informal Speech Dataset for Punctuation Restoration [0.8517406772939293]
SponSpeechは、非公式な音声ソースから派生した句読点復元データセットである。
フィルタリングパイプラインは,音声と文字起こしの双方の品質について検討する。
我々はまた、他の文法的に曖昧な句読点を予測するために、音声情報を活用するモデルの能力を評価することを目的とした、挑戦的なテストセットを慎重に構築する。
論文 参考訳(メタデータ) (2024-09-17T14:43:14Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - Diacritic Recognition Performance in Arabic ASR [2.28438857884398]
本稿では,アラビア語自動音声認識システムにおけるダイアクリティカルな音声認識性能について分析する。
現在の最先端のASRモデルは、その出力に完全なダイアライゼーションを生じさせない。
論文 参考訳(メタデータ) (2023-02-27T18:27:42Z) - Towards zero-shot Text-based voice editing using acoustic context
conditioning, utterance embeddings, and reference encoders [14.723225542605105]
テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。
近年の研究では、ニューラルモデルを用いて、明瞭さ、話者識別、韻律の観点から、オリジナルの音声に似た編集された音声を生成する。
この研究は、微調整を完全に回避するゼロショットアプローチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-28T10:31:44Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。