Fugu-MT 論文翻訳(概要): A Textless Metric for Speech-to-Speech Comparison

論文の概要: A Textless Metric for Speech-to-Speech Comparison

arxiv url: http://arxiv.org/abs/2210.11835v1
Date: Fri, 21 Oct 2022 09:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:57:02.758243
Title: A Textless Metric for Speech-to-Speech Comparison
Title（参考訳）: 音声対音声比較のためのテキストレス指標
Authors: Laurent Besacier, Swen Ribeiro, Olivier Galibert, Ioan Calapodescu
Abstract要約: 本稿では,テキストの書き起こしに逆戻りすることなく,音声の仮説と音声の参照を比較できるテキストレス音声合成比較尺度を提案する。我々は最近提案された音声2ユニットエンコーダを用いて、音声の発話を個別の音響単位に擬似的に書き起こし、テキストベースのメトリクスを学習する単純なニューラルアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 20.658229254191266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a textless speech-to-speech comparison metric that allows comparing a speech hypothesis with a speech reference without falling-back to their text transcripts. We leverage recently proposed speech2unit encoders (such as HuBERT) to pseudo-transcribe the speech utterances into discrete acoustic units and propose a simple neural architecture that learns a speech-based metric which correlates well with its text-based counterpart. Such a textless metric could ultimately be interesting for speech-to-speech translation evaluation (for oral languages or languages with no reliable ASR system available).
Abstract（参考訳）: 本稿では,テキストの書き起こしに逆戻りすることなく,音声の仮説と音声の参照を比較できる音声合成比較尺度を提案する。我々は、最近提案された音声2ユニットエンコーダ(HuBERTなど)を利用して、音声の発話を個別の音響単位に擬似的に書き起こし、テキストベースのメトリクスを学習する単純なニューラルネットワークを提案する。このようなテキストなしのメトリクスは、音声から音声への翻訳評価(信頼できるASRシステムがない言語や言語の場合)に最終的に興味深い。

関連論文リスト

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文参考訳（メタデータ） (2024-12-21T06:16:04Z)
DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。 Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文参考訳（メタデータ） (2024-06-13T05:23:22Z)
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文参考訳（メタデータ） (2023-07-03T06:55:03Z)
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文参考訳（メタデータ） (2022-10-07T17:57:45Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)
Do We Still Need Automatic Speech Recognition for Spoken Language Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文参考訳（メタデータ） (2021-11-29T15:13:36Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。