論文の概要: Benchmarking Speech-to-Speech Translation Models
- arxiv url: http://arxiv.org/abs/2606.03241v1
- Date: Tue, 02 Jun 2026 07:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.726568
- Title: Benchmarking Speech-to-Speech Translation Models
- Title(参考訳): 音声音声合成モデルのベンチマーク
- Authors: Alkis Koudounas, Hayato Futami, Quentin Jodelet, Osamu Take, Shinji Watanabe, Emiru Tsunoo,
- Abstract要約: 音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
- 参考スコア(独自算出の注目度): 55.00303727199927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-speech translation (S2ST) has advanced rapidly, but offline evaluation lacks a unified protocol: studies report non-overlapping metric subsets, preventing direct comparisons. We introduce COMPASS, a unified and reproducible benchmarking framework integrating 46 metrics across eight dimensions, and deploy it on 1,248 model-language configurations from FLEURS and CVSS, spanning cascaded and end-to-end architectures over ten language pairs. Architectures exhibit complementary strengths: best-vs-worst gaps exceed 30\% on naturalness and speaker preservation but remain within a few points on translation quality, so single-metric rankings systematically misrepresent system quality. Correlation filtering reduces 46 metrics to 10 per direction, with three axes requiring different metrics across X$\to$EN and EN$\to$X (e.g., TER/UTMOS vs. ChrF++/NISQA-MOS); these subsets preserve rankings (Spearman's $ρ>0.80$) while cutting evaluation time by $\approx 2.5\times$. Human validation across dubbing, podcasts, and medical domains shows standalone MOS predictors fail to predict listener preference, while top domain-specific metrics correlate with human judgment ($ρ\geq 0.90$). We release COMPASS as a foundation for domain-aware S2ST evaluation.
- Abstract(参考訳): 音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルがない。
46のメトリクスを8次元にわたって統合し,FLEURSとCVSSの1,248のモデル言語構成上にデプロイする,統一的で再現可能なベンチマークフレームワークであるCompASSを紹介した。
最高のvs-worstのギャップは自然さと話者保存の30%を超えているが、翻訳品質のいくつかの点に留まっているため、シングルメトリックのランキングはシステム品質を体系的に誤解している。
相関フィルタリングにより、X$\to$ENとEN$\to$X(eg , TER/UTMOS vs. ChrF++/NISQA-MOS)の3つの軸で46のメトリクスが10方向に減少し、これらのサブセットはランキング(Spearmanの$ρ>0.80$)を維持しながら、$\approx 2.5\times$で評価時間を短縮する。
ダビング、ポッドキャスト、医療ドメインにわたる人間の検証は、スタンドアロンのMOS予測者がリスナーの好みを予測できないことを示しているが、上位ドメイン固有のメトリクスは人間の判断と相関している(ρ\geq 0.90$)。
ドメイン認識S2ST評価の基礎としてCompASSをリリースする。
関連論文リスト
- Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech [50.45710815530982]
同時音声翻訳(SST)は、部分的な音声入力を受けながら翻訳を生成する。
近年の進歩により、大規模言語モデル(LLM)はSSTの品質を大幅に向上するが、高い計算オーバーヘッドのコストがかかる。
本稿では,不完全なSFTデータに基づいて列車後モデルを訓練する階層的ポリシー最適化(HPO)手法を提案する。
英語と中国語/ドイツ語/日本語の実験では、+7 COMETスコアと+1.25 MetricXスコアが1.5秒で改善された。
論文 参考訳(メタデータ) (2026-04-22T19:43:51Z) - Neural networks for Text-to-Speech evaluation [35.277885003866466]
音声合成システムは、人間の知覚された品質を大規模に提供する必要がある。
Mean Opinion Score (MOS) や Side-by-Side (SBS) のような人間の主観評価プロトコルは、事実上のゴールド標準のままである。
本研究では、これらの障壁を定式化し、新しいニューラルモデルスイートを実装して解決する。
論文 参考訳(メタデータ) (2026-03-17T16:07:15Z) - GemDetox at TextDetox CLEF 2025: Enhancing a Massively Multilingual Model for Text Detoxification on Low-resource Languages [32.22353317193898]
PAN 2025 Multilingual Text Detoxification Challengeについて述べる。
パラメータ効率のよいLoRA SFT微調整を施し、少数ショットやチェーン・オブ・サートのような技法を推し進める。
当社のシステムは、まず、高リソースおよび低リソース言語にランク付けする。
論文 参考訳(メタデータ) (2025-09-24T10:06:40Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems [13.307889110301502]
TTSDS のより堅牢で改良されたバージョンである Text to Speech Distribution Score 2 (TTSDS2) を紹介する。
TTSDS2は、各ドメインの0.50以上のスピアマン相関と、評価された主観的スコアと相関する16の指標のうち、唯一のものである。
11,000以上の主観的評価スコアを持つデータセット、データ漏洩を避けるために多言語テストデータセットを継続的に再現するためのパイプライン。
論文 参考訳(メタデータ) (2025-06-24T09:12:02Z) - Phonology-Guided Speech-to-Speech Translation for African Languages [2.7624021966289605]
音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。