論文の概要: Why We Need Speech to Evaluate Speech Translation
- arxiv url: http://arxiv.org/abs/2605.28227v1
- Date: Wed, 27 May 2026 09:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.942907
- Title: Why We Need Speech to Evaluate Speech Translation
- Title(参考訳): 音声翻訳を評価するにはなぜ音声が必要なのか
- Authors: Maike Züfle, Danni Liu, Vilém Zouhar, Jan Niehues,
- Abstract要約: テキストベースと音声ベースの両方の品質評価指標を評価した。
音声信号への直接アクセスが与えられた場合でも、どちらも短くなる。
本研究では,(1)現在エンコーダで音声特徴が確実に保存されていないこと,(2)モデルが音源信号を無視しやすいこと,(3)品質推定訓練データに関連例が多すぎること,の3つの原因を同定する。
- 参考スコア(独自算出の注目度): 32.52881174671332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech translation models are increasingly capable of preserving speech-specific information (e.g., speaker gender, prosody, and emphasis), yet evaluation metrics remain blind to such phenomena. We meta-evaluate both text- and speech-based quality estimation metrics on two contrastive datasets targeting gender agreement and prosody, and find that both fall short, even when given direct access to the speech signal. We then train SpeechCOMET, a family of quality estimation models with speech encoders, and evaluate a state-of-the-art SpeechLLM as a judge. Both match or exceed text-based COMET on standard quality estimation, but neither consistently assesses speech-specific phenomena. We identify three causes: (1) speech-specific features are not reliably preserved in current encoders, (2) models tend to ignore the speech source signal, and (3) quality estimation training data contains too few relevant examples. We release all models and code, and argue that progress requires dedicated speech-specific training data and models that genuinely condition on speech.
- Abstract(参考訳): 音声翻訳モデルは、音声固有の情報(例えば、話者の性別、韻律、強調)を保存する能力がますます高まっているが、評価指標はそのような現象には見えないままである。
ジェンダーコンセンサスと韻律を対象とする2つの対照的なデータセット上で、テキストベースと音声ベースの品質評価指標をメタ評価し、音声信号への直接アクセスが与えられた場合でも、どちらも短くなることを発見した。
次に、音声エンコーダを用いた品質推定モデルのファミリーであるSpeechCOMETを訓練し、最先端のSpeechLLMを審査員として評価する。
標準品質推定ではテキストベースのCOMETと一致または超過するが、どちらも音声特有の現象を常に評価しない。
本研究では,(1)現在エンコーダで音声特徴が確実に保存されていないこと,(2)モデルが音源信号を無視しやすいこと,(3)品質推定訓練データに関連例が多すぎること,の3つの原因を同定する。
我々は全てのモデルとコードを公開し、進歩には真に音声に適応する専用の訓練データとモデルが必要であると論じる。
関連論文リスト
- SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。
GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文 参考訳(メタデータ) (2025-03-07T02:07:00Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。