Fugu-MT 論文翻訳(概要): Assessing Evaluation Metrics for Speech-to-Speech Translation

論文の概要: Assessing Evaluation Metrics for Speech-to-Speech Translation

arxiv url: http://arxiv.org/abs/2110.13877v1
Date: Tue, 26 Oct 2021 17:35:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 15:45:37.808269
Title: Assessing Evaluation Metrics for Speech-to-Speech Translation
Title（参考訳）: 音声音声翻訳における評価基準の評価
Authors: Elizabeth Salesky, Julian M\"ader, Severin Klinger
Abstract要約: 音声から音声への翻訳は機械翻訳と音声合成を組み合わせたものである。音声から音声への翻訳を自動的に評価する方法は、これまで検討されていないオープンな質問である。
参考スコア（独自算出の注目度）: 9.670709690031885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-to-speech translation combines machine translation with speech synthesis, introducing evaluation challenges not present in either task alone. How to automatically evaluate speech-to-speech translation is an open question which has not previously been explored. Translating to speech rather than to text is often motivated by unwritten languages or languages without standardized orthographies. However, we show that the previously used automatic metric for this task is best equipped for standardized high-resource languages only. In this work, we first evaluate current metrics for speech-to-speech translation, and second assess how translation to dialectal variants rather than to standardized languages impacts various evaluation methods.
Abstract（参考訳）: 音声音声翻訳は、機械翻訳と音声合成を組み合わせて、どちらのタスクにも存在しない評価課題を導入する。音声から音声への翻訳を自動的に評価する方法は、これまで検討されていないオープンな質問である。テキストではなく音声に翻訳することは、しばしば標準化された正書法を使わずに書かれた言語や言語によって動機づけられる。しかし,本稿では,これまで使用されていた自動メトリクスが,標準化された高リソース言語のみに最も適していることを示す。本研究では,まず音声音声翻訳の現在の指標を評価し,第2に,標準言語よりも方言変種への翻訳が様々な評価方法に与える影響を評価する。

関連論文リスト

STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。 Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文参考訳（メタデータ） (2024-09-04T02:20:59Z)
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文参考訳（メタデータ） (2024-07-08T08:53:26Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。音声合成と音声合成の2つの課題に適用する。どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文参考訳（メタデータ） (2023-12-21T17:47:33Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。 Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-12T10:03:10Z)
Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。自動仮説の最小化のための明確なガイドラインを定義する。我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文参考訳（メタデータ） (2022-11-22T08:14:07Z)
A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文参考訳（メタデータ） (2022-10-21T09:28:54Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)
Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文参考訳（メタデータ） (2020-06-22T10:28:38Z)
UWSpeech: Speech to Speech Translation for Unwritten Languages [145.37116196042282]
UWSpeechと名づけられた非書き言語のための翻訳システムを開発し、対象の非書き言語をコンバータで個別のトークンに変換する。本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を言語間音声認識(XL)で拡張するXL-VAE法を提案する。スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは、それぞれ16点と10点のBLEUポイントで直接翻訳とVQ-VAEベースラインを上回っている。
論文参考訳（メタデータ） (2020-06-14T15:22:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。