論文の概要: Segmenting Subtitles for Correcting ASR Segmentation Errors
- arxiv url: http://arxiv.org/abs/2104.07868v1
- Date: Fri, 16 Apr 2021 03:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 03:47:41.641868
- Title: Segmenting Subtitles for Correcting ASR Segmentation Errors
- Title(参考訳): asrセグメンテーションエラー訂正のためのセグメンテーションサブタイトル
- Authors: David Wan, Chris Kedzie, Faisal Ladhak, Elsbeth Turcan, Petra
Galu\v{s}\v{c}\'akov\'a, Elena Zotkina, Zhengping Jiang, Peter Bell, Kathleen
McKeown
- Abstract要約: 低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
- 参考スコア(独自算出の注目度): 11.854481771567503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical ASR systems segment the input audio into utterances using purely
acoustic information, which may not resemble the sentence-like units that are
expected by conventional machine translation (MT) systems for Spoken Language
Translation. In this work, we propose a model for correcting the acoustic
segmentation of ASR models for low-resource languages to improve performance on
downstream tasks. We propose the use of subtitles as a proxy dataset for
correcting ASR acoustic segmentation, creating synthetic acoustic utterances by
modeling common error modes. We train a neural tagging model for correcting ASR
acoustic segmentation and show that it improves downstream performance on MT
and audio-document cross-language information retrieval (CLIR).
- Abstract(参考訳): 典型的なASRシステムは、入力された音声を純粋に音響情報を用いて発声するが、これは音声翻訳の機械翻訳(MT)システムで期待される文のような単位に似ていない。
本研究では,低リソース言語に対するASRモデルの音響分割を補正し,下流タスクの性能を改善するモデルを提案する。
本稿では,ASR音響セグメント補正のためのプロキシデータセットとしてサブタイトルを用いることにより,一般的な誤りモードをモデル化して合成音響発話を生成する。
我々は、ASR音響セグメント補正のためのニューラルネットワークタギングモデルを訓練し、MTの下流性能と音声文書間情報検索(CLIR)を改善することを示す。
関連論文リスト
- Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Lightweight Audio Segmentation for Long-form Speech Translation [17.743473111298826]
モデルサイズを小さくすることで、より優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。
また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-06-15T08:02:15Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines [15.669334598926342]
我々は、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点をあてる。
テレビ番組や映画のサブタイトルのデータセットを使用して、より良いASRセグメンテーションモデルをトレーニングします。
このノイズのある構文情報により,モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T17:32:40Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。