論文の概要: SpeechAlign: a Framework for Speech Translation Alignment Evaluation
- arxiv url: http://arxiv.org/abs/2309.11585v2
- Date: Thu, 25 Apr 2024 09:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:57:24.286235
- Title: SpeechAlign: a Framework for Speech Translation Alignment Evaluation
- Title(参考訳): SpeechAlign: 音声翻訳アライメント評価のためのフレームワーク
- Authors: Belen Alastruey, Aleix Sant, Gerard I. Gállego, David Dale, Marta R. Costa-jussà,
- Abstract要約: SpeechAlignは、音声モデルにおけるソース・ターゲットアライメントの未探索領域を評価するために設計されたフレームワークである。
適切な評価データセットの欠如に対処するために,音声ゴールドアライメントデータセットを提案する。
また、音声アライメント誤り率(SAER)と時間重み付き音声アライメント誤り率(TW-SAER)の2つの新しい指標も導入する。
- 参考スコア(独自算出の注目度): 15.069228503777124
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. In our commitment to advance these fields, we present SpeechAlign, a framework designed to evaluate the underexplored field of source-target alignment in speech models. The SpeechAlign framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), which enable the evaluation of alignment quality within speech models. While the former gives equal importance to each word, the latter assigns weights based on the length of the words in the speech signal. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. In doing so, we contribute to the ongoing research progress within the fields of Speech-to-Speech and Speech-to-Text translation.
- Abstract(参考訳): 音声から音声への翻訳と音声からテキストへの翻訳は、現在研究のダイナミックな領域である。
本稿では,これらの分野を推し進めるためのフレームワークであるSpeechAlignについて述べる。
SpeechAlignフレームワークには2つのコアコンポーネントがある。
まず、適切な評価データセットの欠如に対処するため、英独翻訳ゴールドアライメントデータセットに基づく音声ゴールドアライメントデータセットを提案する。
第2に、音声モデル内のアライメント品質を評価するために、音声アライメント誤り率(SAER)と時間重み付き音声アライメント誤り率(TW-SAER)の2つの新しい指標を導入する。
前者は各単語に等しく重みを与えるが、後者は音声信号中の単語の長さに基づいて重みを割り当てる。
SpeechAlignを公開することによって、モデルアセスメントのためのアクセシブルな評価フレームワークを提供し、それをオープンソースの音声翻訳モデルのベンチマークに利用する。
そこで本研究では,音声音声翻訳と音声テキスト翻訳の分野における研究の進展に貢献する。
関連論文リスト
- EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。
音声合成と音声合成の2つの課題に適用する。
どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。
評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文 参考訳(メタデータ) (2023-12-21T17:47:33Z) - Understanding Shared Speech-Text Representations [34.45772613231558]
Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
論文 参考訳(メタデータ) (2023-04-27T20:05:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。