論文の概要: A Textless Metric for Speech-to-Speech Comparison
- arxiv url: http://arxiv.org/abs/2210.11835v1
- Date: Fri, 21 Oct 2022 09:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:57:02.758243
- Title: A Textless Metric for Speech-to-Speech Comparison
- Title(参考訳): 音声対音声比較のためのテキストレス指標
- Authors: Laurent Besacier, Swen Ribeiro, Olivier Galibert, Ioan Calapodescu
- Abstract要約: 本稿では,テキストの書き起こしに逆戻りすることなく,音声の仮説と音声の参照を比較できるテキストレス音声合成比較尺度を提案する。
我々は最近提案された音声2ユニットエンコーダを用いて、音声の発話を個別の音響単位に擬似的に書き起こし、テキストベースのメトリクスを学習する単純なニューラルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 20.658229254191266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a textless speech-to-speech comparison metric that allows
comparing a speech hypothesis with a speech reference without falling-back to
their text transcripts. We leverage recently proposed speech2unit encoders
(such as HuBERT) to pseudo-transcribe the speech utterances into discrete
acoustic units and propose a simple neural architecture that learns a
speech-based metric which correlates well with its text-based counterpart. Such
a textless metric could ultimately be interesting for speech-to-speech
translation evaluation (for oral languages or languages with no reliable ASR
system available).
- Abstract(参考訳): 本稿では,テキストの書き起こしに逆戻りすることなく,音声の仮説と音声の参照を比較できる音声合成比較尺度を提案する。
我々は、最近提案された音声2ユニットエンコーダ(HuBERTなど)を利用して、音声の発話を個別の音響単位に擬似的に書き起こし、テキストベースのメトリクスを学習する単純なニューラルネットワークを提案する。
このようなテキストなしのメトリクスは、音声から音声への翻訳評価(信頼できるASRシステムがない言語や言語の場合)に最終的に興味深い。
関連論文リスト
- DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。