論文の概要: Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2509.17349v1
- Date: Mon, 22 Sep 2025 04:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.22893
- Title: Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
- Title(参考訳): 音声とテキストの同時翻訳におけるレイテンシ指標の評価
- Authors: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar,
- Abstract要約: 同時音声テキスト変換(SimulST)システムでは,翻訳品質とレイテンシのバランスをとる必要がある。
既存のメトリクスは、しばしば矛盾または誤解を招く結果を生み出します。
本報告では,言語ペア,システム,短文と長文の両方でSimulSTレイテンシメトリクスを包括的に解析する。
- 参考スコア(独自算出の注目度): 13.949286462892212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech-to-text translation (SimulST) systems have to balance translation quality with latency--the delay between speech input and the translated output. While quality evaluation is well established, accurate latency measurement remains a challenge. Existing metrics often produce inconsistent or misleading results, especially in the widely used short-form setting, where speech is artificially presegmented. In this paper, we present the first comprehensive analysis of SimulST latency metrics across language pairs, systems, and both short- and long-form regimes. We uncover a structural bias in current metrics related to segmentation that undermines fair and meaningful comparisons. To address this, we introduce YAAL (Yet Another Average Lagging), a refined latency metric that delivers more accurate evaluations in the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and propose SoftSegmenter, a novel resegmentation tool based on word-level alignment. Our experiments show that YAAL and LongYAAL outperform popular latency metrics, while SoftSegmenter enhances alignment quality in long-form evaluation, together enabling more reliable assessments of SimulST systems.
- Abstract(参考訳): 音声からテキストへの同時翻訳(SimulST)システムでは,音声入力と翻訳出力の遅延という,翻訳品質とレイテンシのバランスをとる必要がある。
品質評価は十分に確立されているが、正確なレイテンシ測定は依然として課題である。
既存のメトリクスは、しばしば矛盾または誤解を招く結果をもたらすが、特に音声が人工的にプレセグメンテーションされる、広く使われているショートフォーム設定においてである。
本稿では,言語ペア,システム,およびショートフォームとロングフォームのいずれにおいても,SimulSTレイテンシメトリクスを包括的に分析する。
我々は、公平で有意義な比較を損なうセグメンテーションに関連する現在の指標の構造バイアスを明らかにする。
これを解決するために, YAAL(Yet Another Average Lagging, Yet Another Average Lagging)を導入する。
本稿では,未分類音声に対してYAALをLongYAALに拡張し,単語レベルのアライメントに基づく新たな分離ツールであるSoftSegmenterを提案する。
実験の結果, YAALとLongYAALは, 一般的なレイテンシ指標より優れており, 一方SoftSegmenterは, 長期評価におけるアライメント品質を向上させるとともに, より信頼性の高いSimulSTシステムの評価を可能にする。
関連論文リスト
- CA*: Addressing Evaluation Pitfalls in Computation-Aware Latency for Simultaneous Speech Translation [17.473263201972483]
同時音声翻訳(SimulST)システムは、翻訳品質と応答時間とのバランスをとる必要がある。
現在のメトリクスは、非セグメンテッドなストリーミング設定で非現実的に高いレイテンシ測定をもたらすという、長年にわたって信じられてきた。
論文 参考訳(メタデータ) (2024-10-21T13:42:19Z) - Average Token Delay: A Duration-aware Latency Metric for Simultaneous
Translation [16.954965417930254]
我々は,emphAverage Token Delay (ATD) と呼ばれる同時翻訳のための新しい遅延評価指標を提案する。
Ear-Voice Span(EVS)に基づくユーザ側レイテンシのシミュレーションによる効果の実証を行った。
論文 参考訳(メタデータ) (2023-11-24T08:53:52Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Average Token Delay: A Latency Metric for Simultaneous Translation [21.142539715996673]
Average Token Delay (ATD) と呼ばれる新しい遅延評価指標を提案する。
シミュレーション例を用いてATDの利点を考察するとともに,ATDと平均ラギングの違いと同時翻訳実験について検討する。
論文 参考訳(メタデータ) (2022-11-22T06:45:13Z) - Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for
Simultaneous Speech Translation [17.305879157385675]
同時音声翻訳(SimulST)システムは,低レイテンシで出力を生成することを目的としている。
Average Lagging (AL)は、対応する参照よりも長い予測を生成するシステムに対して、過小評価スコアを提供する。
近年のSimulSTシステムでは過剰発生傾向にあるため,この問題は実際的関連性があることが示唆された。
論文 参考訳(メタデータ) (2022-06-12T18:00:08Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。