論文の概要: SubER: A Metric for Automatic Evaluation of Subtitle Quality
- arxiv url: http://arxiv.org/abs/2205.05805v1
- Date: Wed, 11 May 2022 23:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 02:15:45.340433
- Title: SubER: A Metric for Automatic Evaluation of Subtitle Quality
- Title(参考訳): suber: 字幕品質の自動評価のための指標
- Authors: Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov
- Abstract要約: SubERは編集距離に基づくメトリックであり、これらのサブタイトルプロパティをすべて考慮に入れたシフトがある。
編集後シナリオにおける注意深い人的評価は、新しい測定基準が編集後の努力と人的評価スコアと高い相関性を持っていることを示している。
- 参考スコア(独自算出の注目度): 1.4287758028119784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper addresses the problem of evaluating the quality of automatically
generated subtitles, which includes not only the quality of the
machine-transcribed or translated speech, but also the quality of line
segmentation and subtitle timing. We propose SubER - a single novel metric
based on edit distance with shifts that takes all of these subtitle properties
into account. We compare it to existing metrics for evaluating transcription,
translation, and subtitle quality. A careful human evaluation in a post-editing
scenario shows that the new metric has a high correlation with the post-editing
effort and direct human assessment scores, outperforming baseline metrics
considering only the subtitle text, such as WER and BLEU, and existing methods
to integrate segmentation and timing features.
- Abstract(参考訳): 本稿では, 自動生成字幕の品質評価について, 機械翻訳音声や翻訳音声の品質だけでなく, 線分節や字幕タイミングの質についても検討する。
本稿では,これらすべての字幕特性を考慮に入れたシフト付き編集距離に基づく新しい指標SubERを提案する。
書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。
編集後シナリオにおける注意深い人的評価は、新しい指標が編集後作業と人的評価スコアとの相関が高く、WERやBLEUのような字幕テキストのみを考慮したベースラインメトリクスよりも優れており、セグメンテーションとタイミング機能を統合するための既存の方法であることを示している。
関連論文リスト
- SpeechQE: Estimating the Quality of Direct Speech Translation [23.83384136789891]
音声翻訳(SpeechQE)の品質評価のタスクを定式化し、ベンチマークを構築し、カスケードアーキテクチャとエンドツーエンドアーキテクチャに基づくシステム群を評価する。
提案手法は, ケースドシステムにおけるテキストを対象とした品質推定システムよりも, 直接音声翻訳の品質を推定するのに適していると考えられる。
論文 参考訳(メタデータ) (2024-10-28T19:50:04Z) - Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。
この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。
MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文 参考訳(メタデータ) (2024-05-28T16:44:02Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - DeepSubQE: Quality estimation for subtitle translations [0.0]
本稿では,既存のQE手法が不十分であることを示すとともに,一対の言語に対して与えられた字幕データの翻訳品質を推定するシステムとして,DeepSubQEを提案する。
バイリンガルデータの意味的・統語的特徴を学習し,LSTMとCNNのみと比較するハイブリッドネットワークを構築した。
論文 参考訳(メタデータ) (2020-04-22T09:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。