論文の概要: Detecting Mismatch between Text Script and Voice-over Using Utterance
Verification Based on Phoneme Recognition Ranking
- arxiv url: http://arxiv.org/abs/2003.09180v1
- Date: Fri, 20 Mar 2020 10:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:51:14.631096
- Title: Detecting Mismatch between Text Script and Voice-over Using Utterance
Verification Based on Phoneme Recognition Ranking
- Title(参考訳): 音素認識ランキングに基づく発話検証によるテキストスクリプトと音声のミスマッチの検出
- Authors: Yoonjae Jeong, Hoon-Young Cho
- Abstract要約: 本稿では,ボイスオーバとスクリプトの対応度を算出する新しい発話検証手法を提案する。
その結果,大声化音声の音素認識確率は通常の発話に比べて低下することが判明した。
そこで,提案手法では,音素系列に対応する各音素セグメントの認識ランキングを用いて,対応する文字に対する音声オーバ発話の信頼度を測定する。
- 参考スコア(独自算出の注目度): 7.655239948659383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this study is to detect the mismatch between text script and
voice-over. For this, we present a novel utterance verification (UV) method,
which calculates the degree of correspondence between a voice-over and the
phoneme sequence of a script. We found that the phoneme recognition
probabilities of exaggerated voice-overs decrease compared to ordinary
utterances, but their rankings do not demonstrate any significant change. The
proposed method, therefore, uses the recognition ranking of each phoneme
segment corresponding to a phoneme sequence for measuring the confidence of a
voice-over utterance for its corresponding script. The experimental results
show that the proposed UV method outperforms a state-of-the-art approach using
cross modal attention used for detecting mismatch between speech and
transcription.
- Abstract(参考訳): 本研究の目的は,テキストスクリプトとボイスオーバーのミスマッチを検出することである。
そこで本研究では,文字の音声と音素列の対応度を計算する新しい発話検証(uv)法を提案する。
音声強調音声の音素認識確率は通常の発話に比べて低下するが,そのランクは大きな変化は示さない。
そこで,提案手法では,音素系列に対応する各音素セグメントの認識ランキングを用いて,対応する文字に対する音声オーバ発話の信頼度を測定する。
実験の結果,提案手法は,音声と書き起こしのミスマッチ検出に用いるクロスモーダル注意を用いた最先端手法よりも優れていることがわかった。
関連論文リスト
- Distance Sampling-based Paraphraser Leveraging ChatGPT for Text Data Manipulation [15.765495448426904]
本稿では,音声検索タスクにおけるデータ不均衡問題に対処する新しい手法を提案する。
ChatGPTを利用した距離サンプリングに基づくパラフレーズは、操作されたテキストデータの制御可能な分布を生成する。
提案手法は音声テキスト検索の性能を大幅に向上させ,従来のテキスト拡張手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-01T07:44:28Z) - JSTR: Judgment Improves Scene Text Recognition [0.0]
本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。
この方法は、モデルが誤認識しそうなデータに対して明示的なフィードバックを提供することで、テキスト認識の精度を高める。
論文 参考訳(メタデータ) (2024-04-09T02:55:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - High-precision Voice Search Query Correction via Retrievable Speech-text
Embedings [13.4015768521113]
音声認識システムは、ノイズの多い音声、十分なトレーニングデータがないなど、様々な理由で、リコールに苦しむことがある。
従来の研究では、仮説テキストの潜在的、文脈に関連のある選択肢の巨大なデータベースから書き直し候補を検索することで、リコールを改善することができた。
一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。
論文 参考訳(メタデータ) (2024-01-08T20:59:56Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Interactive decoding of words from visual speech recognition models [5.769899882272548]
本手法は,各単語位置における対話点の挿入を容易にするため,単語をロックステップで拡張する。
オラクルを用いたユーザ入力の動作をシミュレートし、自動評価を行い、本手法をテキスト入力に用いることを約束する。
論文 参考訳(メタデータ) (2021-07-01T18:38:01Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。