論文の概要: A Textless Metric for Speech-to-Speech Comparison
- arxiv url: http://arxiv.org/abs/2210.11835v2
- Date: Thu, 20 Jul 2023 11:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 18:46:22.337815
- Title: A Textless Metric for Speech-to-Speech Comparison
- Title(参考訳): 音声対音声比較のためのテキストレス指標
- Authors: Laurent Besacier, Swen Ribeiro, Olivier Galibert, Ioan Calapodescu
- Abstract要約: テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
- 参考スコア(独自算出の注目度): 20.658229254191266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a new and simple method for comparing speech
utterances without relying on text transcripts. Our speech-to-speech comparison
metric utilizes state-of-the-art speech2unit encoders like HuBERT to convert
speech utterances into discrete acoustic units. We then propose a simple and
easily replicable neural architecture that learns a speech-based metric that
closely corresponds to its text-based counterpart. This textless metric has
numerous potential applications, including evaluating speech-to-speech
translation for oral languages, languages without dependable ASR systems, or to
avoid the need for ASR transcription altogether. This paper also shows that for
speech-to-speech translation evaluation, ASR-BLEU (which consists in
automatically transcribing both speech hypothesis and reference and compute
sentence-level BLEU between transcripts) is a poor proxy to real text-BLEU even
when ASR system is strong.
- Abstract(参考訳): 本稿では,テキストの書き起こしに頼らずに音声の発話を比較する方法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,発話を離散音響単位に変換する。
次に,テキストベースと密接に対応した音声ベースのメトリクスを学習する,シンプルで容易に複製可能なニューラルアーキテクチャを提案する。
このテキストレスメートル法には、音声から音声への翻訳の評価や、信頼できるASRシステムを持たない言語、あるいはASRの転写を完全に回避するなど、多くの潜在的な応用がある。
また、音声から音声への翻訳評価において、ASR系が強い場合でも、音声仮説と参照と文レベルのBLEUを自動で書き起こしするASR-BLEUが、実際のテキストBLEUのプロキシとして不十分であることを示す。
関連論文リスト
- DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。