論文の概要: SpeechAlign: a Framework for Speech Translation Alignment Evaluation
- arxiv url: http://arxiv.org/abs/2309.11585v1
- Date: Wed, 20 Sep 2023 18:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:03:41.364929
- Title: SpeechAlign: a Framework for Speech Translation Alignment Evaluation
- Title(参考訳): SpeechAlign: 音声翻訳アライメント評価のためのフレームワーク
- Authors: Belen Alastruey, Aleix Sant, Gerard I. G\'allego, David Dale and Marta
R. Costa-juss\`a
- Abstract要約: SpeechAlignは、音声モデルにおけるソース・ターゲットアライメントの未探索領域を評価するためのフレームワークである。
まず、適切な評価データセットの欠如に対処するため、音声ゴールドアライメントデータセットを導入する。
次に、音声モデルのアライメント品質を評価するために、音声アライメント誤り率(SAER)と時間重み付き音声アライメント誤り率(TW-SAER)の2つの新しい指標を導入する。
- 参考スコア(独自算出の注目度): 5.037834273181061
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech-to-Speech and Speech-to-Text translation are currently dynamic areas
of research. To contribute to these fields, we present SpeechAlign, a framework
to evaluate the underexplored field of source-target alignment in speech
models. Our framework has two core components. First, to tackle the absence of
suitable evaluation datasets, we introduce the Speech Gold Alignment dataset,
built upon a English-German text translation gold alignment dataset. Secondly,
we introduce two novel metrics, Speech Alignment Error Rate (SAER) and
Time-weighted Speech Alignment Error Rate (TW-SAER), to evaluate alignment
quality in speech models. By publishing SpeechAlign we provide an accessible
evaluation framework for model assessment, and we employ it to benchmark
open-source Speech Translation models.
- Abstract(参考訳): 音声対音声翻訳と音声対テキスト翻訳は現在、ダイナミックな研究分野である。
これらの分野に寄与するために,音声モデルのソース・ターゲットアライメントの未熟な分野を評価するためのフレームワークである speechalign を提案する。
私たちのフレームワークには2つのコアコンポーネントがあります。
まず、適切な評価データセットの欠如に対処するために、英語とドイツ語の翻訳用ゴールドアライメントデータセット上に構築された音声ゴールドアライメントデータセットを提案する。
次に,音声モデルのアライメント品質を評価するために,音声アライメント誤り率(saer)と時間重み付け音声アライメント誤り率(tw-saer)という2つの新しい指標を導入する。
speechalignを公開することにより,モデル評価のためのアクセシブルな評価フレームワークを提供し,オープンソース音声翻訳モデルのベンチマークに活用する。
関連論文リスト
- EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。
音声合成と音声合成の2つの課題に適用する。
どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。
評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文 参考訳(メタデータ) (2023-12-21T17:47:33Z) - Understanding Shared Speech-Text Representations [34.45772613231558]
Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
論文 参考訳(メタデータ) (2023-04-27T20:05:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。