This paper addresses the problem of evaluating the quality of automatically
generated subtitles, which includes not only the quality of the
machine-transcribed or translated speech, but also the quality of line
segmentation and subtitle timing. We propose SubER - a single novel metric
based on edit distance with shifts that takes all of these subtitle properties
into account. We compare it to existing metrics for evaluating transcription,
translation, and subtitle quality. A careful human evaluation in a post-editing
scenario shows that the new metric has a high correlation with the post-editing
effort and direct human assessment scores, outperforming baseline metrics
considering only the subtitle text, such as WER and BLEU, and existing methods
to integrate segmentation and timing features.
SubER: A Metric for Automatic Evaluation of Subtitle Quality
suber: 字幕品質の自動評価のための指標
0.79
Patrick Wilken
パトリック・ウィルケン
0.44
AppTek Aachen, Germany pwilken@apptek.com
AppTek Aachen, Germany pwilken@apptek.com
0.44
Panayota Georgakopoulou
パナヨタ・ゲオルガナコプールー(panayota georgakopoulou)
0.30
Athena Consultancy
アテナコンサルタント
0.58
Athens, Greece Evgeny Matusov
アテネ、ギリシャ エヴゲニー・マトゥソフ
0.58
AppTek Aachen, Germany
AppTek Aachen (複数形 Aachens)
0.33
yota@athenaconsultan cy.eu
yota@athenaconsultan cy.eu
0.39
ematusov@apptek.com
ematusov@apptek.com
0.39
2 2 0 2 y a M 1 1
2 2 0 2 y a m 1 1 である。
0.54
] L C . s c [ 1 v 5 0 8 5 0
]LC。 sc [ 1 v 5 0 8 5 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing.
We compare it to existing metrics for evaluating transcription, translation, and subtitle quality.
書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。
0.63
A careful human evaluation in a post-editing scenario shows that the new metric has a high correlation with the post-editing effort and direct human assessment scores, outperforming baseline metrics considering only the subtitle text, such as WER and BLEU, and existing methods to integrate segmentation and timing features.
1 Introduction The use of automatically created subtitles has become popular due to improved speech recognition (ASR) and machine translation (MT) quality in recent years.
They also gain attraction in the media industry, where they can be an aid to professional subtitlers and lead to increased productivity.
メディア業界でも注目を集めており、プロの字幕作家の助けとなり、生産性を高めることができる。
0.55
In this work, we address the problem of measuring the quality of such automatic subtitling systems.
本研究では,このような自動サブティットリングシステムの品質を計測する問題に対処する。
0.76
We argue that existing metrics which compare the plain text output of an ASR or MT system to a reference text are not sufficient to reflect the particularities of the subtitling task.
ASR や MT システムのプレーンテキスト出力を参照テキストと比較する既存のメトリクスは、サブティットリングタスクの特異性を反映するには不十分である、と我々は主張する。
0.80
We consider two use cases:
ユースケースは2つ検討する。
0.58
1) running speech recognition on the audio track of a video to create subtitles in the original language;
1) ビデオの音声トラック上で音声認識を行い,原文の字幕を作成すること。
0.70
2) translating existing subtitle files with an MT system.
2)既存の字幕ファイルをMTシステムで翻訳する。
0.85
For the first case, the word error rate (WER) of the ASR system is a natural choice for quality control.
最初のケースでは、ASRシステムのワードエラー率(WER)が品質管理の自然な選択である。
0.65
For MT there exist a
MT には A が存在する。
0.65
wider range of automatic metrics such as BLEU (Papineni et al , 2002), TER (Snover et al , 2006), chrF (Popovi´c, 2015) and, more recently, learned metrics like BertScore (Zhang et al , 2019) and COMET (Rei et al , 2020).
BLEU (Papineni et al , 2002), TER (Snover et al , 2006), chrF (Popovi ́c, 2015), さらに最近では BertScore (Zhang et al , 2019) や COMET (Rei et al , 2020) など,幅広い自動メトリクスが学習されている。
0.76
These existing metrics are suited to measure the quality of ASR and MT in terms of recognized or translated content only.
However, subtitles are defined by more than just their textual content: they include timing information, as well as formatting with possible line breaks within a sentence in syntactically and semantically proper positions.
Figure 1 shows examples of subtitle files in the common SubRip text (SRT) format.
図1は、共通のSubRipテキスト(SRT)フォーマットでサブタイトルファイルの例を示します。
0.85
Evidently, it differs from plain text, in particular:
特に平文とは明らかに異なる。
0.43
• The text is segmented into blocks.
• テキストはブロックに分割される。
0.80
These blocks are distinct from sentences.
これらのブロックは文と異なる。
0.68
A sentence can span several blocks, a block can contain multiple sentences.
文は複数のブロックにまたがり、ブロックは複数の文を含むことができる。
0.64
• A block may be further split into lines.
• ブロックはさらに線に分割することができる。
0.88
• Start and end times define when text is dis-
• テキストがdisである場合の開始と終了時間を定義する。
0.66
played. All of these additional characteristics are crucial for the viewers’ comprehension of the content.
プレイ。 これらの追加的な特徴は、視聴者のコンテンツ理解に不可欠である。
0.69
Professional subtitlers check and possibly improve them as part of the machine-assisted process of subtitle creation.
プロの字幕作成者は、字幕作成の機械支援プロセスの一部としてそれをチェックし、改善する可能性がある。
0.41
To assess the quality of automatically created subtitle files, it is beneficial to have a single metric that evaluates the ASR/MT quality and the quality of the characteristics listed above.
Figure 1: Two examples of subtitles in SRT format for the same video excerpt.
図1: 同じビデオが抜粋されたSRT形式の字幕の2つの例。
0.77
Note the different line and block segmentation.
異なる行とブロックのセグメンテーションに注意してください。
0.64
Also note that subtitles on the right have been condensed for improved readability.
また、右の字幕は読みやすさを改善するために要約されている。
0.60
post-editing effort as well as direct assessment scores.
編集後の努力と直接的な評価スコア。
0.67
3. The publication of a scoring tool to calculate the proposed metric as well as many baseline metrics, directly operating on subtitle files: https://github.com/a pptek/SubER
Media Industry Related to this work are subtitling quality metrics used in the media industry.
メディア産業 この仕事に関連して、メディア業界で使用される品質指標を微調整している。
0.66
The most widely used ones to date are NER (Romero-Fresco and Pérez, 2015) and NTR (Romero-Fresco and Pöchhacker, 2017) for live subtitle quality, the former addressing intralingual subtitles or captions and the latter interlingual ones.
NER (Romero-Fresco and Pérez, 2015) と NTR (Romero-Fresco and Pöchhacker, 2017) は、現在最も広く使われている字幕である。 訳抜け防止モード: 現在最も広く使われているものはNER(Romro - Fresco and Pérez, 2015)である。 そして、NTR(Romro - Fresco and Pöchhacker, 2017)は、ライブ字幕品質を提供する。 前者は言語内字幕または字幕、後者は言語間字幕である。
0.61
Offline interlingual subtitles have traditionally been assessed on the basis of internal quality guidelines and error typologies produced by media localization companies.
3 Automatic Metrics for Subtitling 3.1 Baseline Approaches When subtitling in the original language of a video, the baseline quality measurement is to calculate word error rate (WER) against a reference transcription.
They do not contain any explicit sentence boundary information.
明示的な文境界情報は含まない。
0.59
To calculate traditional MT metrics (BLEU, TER and chrF), we first define reference segments and then align the hypothesis subtitle text to these reference segments by minimizing the edit distance ("Levenshtein alignment") (Matusov et al , 2005).
従来のMTメトリクス(BLEU,TER,chrF)を計算するために、まず参照セグメントを定義し、次に編集距離を最小化して仮説の字幕テキストをこれらの参照セグメントに整列させる(Matusov et al , 2005)。
0.78
Two choices of reference segments are reasonable:
参照セグメントの2つの選択は妥当である。
0.65
1) subtitle blocks; 2) sentences, split according to simple rules based on sentence-final punctuation, possibly spanning across subtitle blocks.
Only for the case of translation from a subtitle template, which preserves subtitle timings, there is a third option, namely to directly use the parallel subtitle blocks as units without any alignment step.
sentences are distributed among several subtitles, which is a problem a subtitle translation system has to solve.
文は複数の字幕に分散され、字幕翻訳システムが解決しなければならない問題である。
0.71
To evaluate subtitle segmentation quality in isolation, Alvarez et al (2017); Karakanta et al (2020b,c) calculate precision and recall of predicted breaks.
Alvarez et al (2017)、Karakanta et al (2020b,c)は、単独で字幕セグメンテーションの品質を評価するために、予測ブレークの精度とリコールを計算する。
0.66
Such an analysis is only possible when the subtitle text to be segmented is fixed and the only degree of freedom is the position of breaks.
3.2 Line Break Tokens A simple method to extend the baseline metrics to take line and subtitle breaks into account is to insert special tokens at the corresponding positions into the subtitle text (Karakanta et al , 2020a; Matusov et al , 2019).
3.2 line break tokens ラインとサブタイトルを考慮に入れるためにベースラインメトリクスを拡張する簡単な方法は、サブタイトルテキストに対応する位置に特別なトークンを挿入することだ(karakanta et al , 2020a; matusov et al , 2019)。
0.80
Figure 2 shows an example. The automatic metrics treat these tokens as any other word, e g BLEU includes them in n-grams, WER and TER count edit operations for them.
図2は例を示す。 自動メトリクスはこれらのトークンを他の言葉として扱い、例えば、BLEUはそれらをn-gram、WER、TERカウントの編集操作に含めている。 訳抜け防止モード: 図2は例を示す。 自動メトリクスはこれらのトークンを他の言葉として扱い、eg BLEUはそれらをn-グラムに含める。 WER と TER は編集操作をカウントする。
0.78
Therefore, subtitles with a segmentation not matching the reference will get lower scores.
したがって、参照と一致しないセグメンテーションを持つ字幕はスコアが低くなる。
0.73
3.3 Timing-Based Segment Alignment The time alignment method proposed in Cherry et al (2021) to calculate t-BLEU is an alternative to Levenshtein hypothesis-to-refere nce alignment that offers the potential advantage of punishing mistimed words.
3.3 タイミングベースセグメンションアライメント t-BLEUを計算するためのCherry et al (2021)で提案された時間アライメント法は、不適切な単語を罰する潜在的な利点を提供するレヴェンシュテイン仮説-参照アライメントの代替である。
0.70
It uses interpolation of the hypothesis subtitle timings to word-level.
仮説の副タイトルのタイミングを単語レベルで補間する。
0.61
Mistimed words may get assigned to a segment without a corresponding reference word, or will even be dropped from the hypothesis if they do not fall into any reference segment.
However, for the transcription task, where subtitle timings of hypothesis and reference are different, we analyze a variant of WER that operates on "t-BLEU segments", i.e. allows for word matches only if hypothesis and reference word are aligned in time (according to interpolated hypothesis word timings).
しかし、仮説と参照の字幕のタイミングが異なる文字転写タスクでは、仮説と参照単語が時間に一致した場合にのみ一致する「t-bleuセグメント」で動作するwerの変種を解析する(補間仮説語タイミングによる)。 訳抜け防止モード: しかし、仮説と参照の字幕タイミングが異なる書き起こしタスクの場合。 We analyze a variant of WER that operating on "t - BLEU segments", すなわち、仮説と参照語が時間的に一致している場合のみ、単語マッチングが可能である(補間された仮説語タイミングによる)。
0.76
We refer to this variant as t-WER.
この変種を t-WER と呼ぶ。
0.68
3.4 New Metric: Subtitle Edit Rate (SubER) None of the above-mentioned metrics considers all of the relevant information present in a subtitle file, namely subtitle text, line segmentation and timing.
3.4 New Metric: Subtitle Edit Rate (SubER) 上記のメトリクスでは、サブタイトルファイルにある関連する情報、すなわちサブタイトルテキスト、行のセグメンテーション、タイミングを考慮していない。
0.80
We therefore propose a new metric called
そこで私たちは新しい測定基準を提案しました
0.52
subtitle edit rate (SubER) that attempts to cover all these aspects, and on top avoids segmentation of the subtitle files into aligned hypothesis-reference pairs as a pre-processing step.
We choose TER (Snover et al , 2006) as the basis of SubER because of its interpretability, especially in the case of post-editing.
TER (Snover et al , 2006) を SubER の基盤として選択する。 訳抜け防止モード: TER(Snover et al, 2006 ) を SubER の基盤として選択する。 特にポストの場合、編集します。
0.52
It corresponds to the number of edit operations, namely substitutions, deletions, insertions and shifts of words that are required to turn the hypothesis text into the reference.
• a hypothesis word is only regarded as correct (no edit) if it is part of a subtitle that overlaps in time with the subtitle containing the matching reference word (otherwise edits are required, e g deletion + insertion).
• word edits are insertions, deletions and substitutions of words, substitutions being only allowed if the hypothesis and reference word are from subtitles that overlap in time.
• break edits are insertions, deletions and substitutions of breaks, treated as additional tokens (<eol> and <eob>) inserted at the positions of the breaks.
Substitutions are only allowed between end-of-line and end-of-block, not between a word and a break, and the same time-overlap condition as for word substitution applies.
The shifted phrase may consist of any combination of words and break tokens.
シフトされたフレーズは、単語とブレークトークンの組み合わせから成りうる。
0.70
We only consider subtitle timings present in the subtitle files, as opposed to interpolating timings of words as done by Cherry et al (2021).
私たちは、cherry et al (2021) によってなされた単語の補間タイミングとは対照的に、字幕ファイルに存在する字幕のタイミングだけを考える。 訳抜け防止モード: 我々は、字幕ファイルにのみ存在する字幕タイミングを、それとは対照的に考慮する。 Cherry et al (2021 ) による語句の補間
0.70
This avoids hypothesis words "falling off the edges" of reference subtitles, e g in case the hypothesis subtitle
これは、仮説の字幕の場合のgのように、参照字幕の「端から落ちる」仮説の単語を避ける
0.67
英語(論文から抽出)
日本語訳
スコア
For the champagne <eol> and brandy you bought me.
シャンパン<eol>とブランデーで私を買ってくれました。
0.69
<eob> As I recall, the booze put you <eol> to sleep a little prematurely.
eob> 思い出すように、お酒は、少し早寝させました。
0.48
<eob> Ladies and gentlemen, <eol> the dance is about to begin.
eob> 女性と紳士,<eol> ダンスが始まろうとしている。
0.64
<eob> Figure 2: Example for usage of end-of-line (<eol>) and end-of-block tokens (<eob>) to represent subtitle formatting.
<eob> 図2: 字幕フォーマットを表すために、行末(<eol>)とブロックのトークン(<eob>)を使用する例。 訳抜け防止モード: <eob> 図2: 行末-行末の使用例(<eol > ) and end - of - block tokens ( < eob > ) 字幕形式を表す。
0.63
Corresponds to right subtitle from Figure 1.
図1の右の字幕に対応する。
0.73
Symbols are adopted from Karakanta et al (2020b).
シンボルは Karakanta et al (2020b) から採用されている。
0.63
n o i t i s o p d r o w s i s e h t o p y h
n o i t i s o p d r o w s i s e h t o p y h
0.42
reference word position Figure 3: Visualization of SubER applied to the subtitles from Figure 1 (hypothesis left, reference right).
参照語の位置 図3: 図1の字幕に適用されるSubERの可視化(仮説左、参照右)。
0.78
Ticks on the axes indicate subtitle block boundaries.
接尾辞は字幕ブロックの境界を示す。
0.60
Grey areas show regions of time-overlapping reference and hypothesis subtitles.
灰色の領域は時間オーバーラップの参照と仮説のサブタイトルの領域を示す。
0.61
Word matches, substitutions and shifts are allowed only within those areas.
単語マッチング、置換、シフトは、これらの領域内でのみ許可される。
0.60
Black squares represent word alignments, blue squares represent break token alignments.
黒い四角形は単語アライメントを表し、青い四角形はブレークトークンアライメントを表す。
0.55
Red borders mark shifted phrases, red crosses indicate substitutions.
赤い境界マークシフトフレーズ、赤十字は置換を表す。
0.81
35 reference words (including breaks), 3 insertions, 2 substitutions, 3 shifts lead to a SubER score of (3 + 2 + 3)/35 = 22.86%.
In the center region we see the substitution of "recall" with "remember", the inserted (i.e. unaligned) hypothesis words "it", "was" and "that", and a shift of the line break to a different position.
The break substitution in the upper right region corresponds to the fact that the last block of the right subtitles in Figure 1 is split into two, i.e. end-of-line is replaced by end-of-block.
右上部の分断置換 領域は、図1の右字幕の最後のブロックが2つに分割されているという事実に対応する。
0.57
3.4.1 Implementation Details
3.4.1 実施内容
0.30
We modify the TER implementation of SacreBLEU (Post, 2018) to implement SubER.
SacreBLEU (Post, 2018) のTER実装をSubERの実装に変更する。
0.58
We adopt the approximation of greedily searching for the best shift until no further reduction of the edit distance can be achieved (Snover et al , 2006).
Snover et al , 2006) では, 編集距離のさらなる削減が達成されなくなるまで, 最適シフトを欲求的に探す近似を採用する。
0.73
Break tokens (<eol> and <eob>) are inserted into the input text.
breakトークン(<eol>と<eob>)は入力テキストに挿入される。
0.71
String comparisons between hypothesis and reference words are replaced by a function additionally checking the time-overlap condition.
仮説と参照語の文字列比較は、時間オーバーラップ条件を付加的にチェックする関数に置き換えられる。
0.71
To make SubER calculation feasible for large subtitle files we split hypothesis and reference into parts at time positions where both agree that no subtitle is displayed.
The number of edit operations is then added up for all parts.
その後、すべての部分に対して編集操作の数が加算される。
0.66
By definition this does not affect the metric score, in contrast to e g segmenting into sentence vs. subtitle blocks when calculating BLEU (Section 3.1).
4 Human Evaluation To analyze the expressiveness of SubER we conduct a human post-editing experiment on both subtitles automatically generated from audio, as well as automatic translations of subtitle text files.
For each of the two post-editing tasks we employ three professional subtitlers with multiple years of experience in the subtitling industry.
編集後2つのタスクそれぞれに対して、潜入産業で数年間の経験を持つ3人のプロの字幕を雇用しています。
0.49
We evaluate how well automatic metric scores correlate with their post-editing effort and their MT quality judgements.
自動測定値が後処理とMT品質評価とどのように相関するかを評価する。
0.70
There exists previous work measuring the productivity gains from post-editing automatic subtitles under the aspect of MT quality (Etchegoyhen et al , 2014; Bywood et al , 2017; Koponen et al , 2020) and segmentation quality (Álvarez et al , 2016; Alvarez et al , 2017; Matusov et al , 2019), but to the best of our knowledge we conduct the first study with the goal of evaluating an automatic quality metric for subtitling.
mt品質 (etchegoyhen et al , 2014; bywood et al , 2017; koponen et al , 2020) とセグメンテーション品質 (allvarez et al , 2016; alvarez et al , 2017; matusov et al , 2019) という側面の下で、編集後の自動字幕による生産性向上を測定する以前の研究がありますが、私たちの知る限りでは、字幕の自動品質指標の評価を目標として、最初の調査を行っています。
0.75
英語(論文から抽出)
日本語訳
スコア
4.1 Data We perform our experiment using one episode from each of the following shows:
4.1 データ 以下の各番組の1話を用いて実験を行う。
0.77
• Master of None: a comedy-drama series • Midnight Mass: a supernatural horror series • Peaky Blinders: an early 20th century British
Pre-existing Spanish subtitles, which follow the English template, are used as reference for MT output.
既存のスペイン語の字幕は英語のテンプレートに従い、MT出力の参照として使用される。
0.74
To gather data points for which we can compare post-editing effort with automatic scores, we manually split the videos into segments of roughly 1 minute, each containing 15 subtitle blocks and 103 words on average.
Excluding these, we end up with 35, 38 and 37 segments for the videos, respectively, amounting to a total of 110 source-target reference subtitle pairs.
4.2 Automatic Subtitling Systems For human post-editing, we create automatic English and Spanish subtitle files.
4.2 人間のポスト編集のための自動字幕システム。英語とスペイン語の自動字幕ファイルを作成する。
0.64
We use several different subtitling systems to obtain evaluation data with a wider variety.
我々は,より多様な評価データを得るために,いくつかの異なるサブタイトシステムを用いた。
0.57
The systems differ in ASR/MT, punctuation and segmentation quality.
システムはASR/MT、句読点、セグメンテーション品質が異なる。
0.70
We create a single automatic English and Spanish subtitle file for each video, each containing segments coming from different automatic subtitling systems.
1. A hybrid ASR system, the output of which is punctuated and cased by a bi-directional LSTM model and then split into lines and subtitles using a beam search decoder that combines scores of a neural segmentation model
and hard subtitling constraints, based on the algorithm proposed by Matusov et al (2019); 2.
and hard subtitling constraints, based on the algorithm proposed by matusov et al (2019); 2。
0.38
same as 1., but without using a neural model
1と同じですが 神経モデルも使わずに
0.70
for subtitle segmentation;
サブタイトルセグメンテーションのために
0.65
3. an online provider offering automatic tran-
3. 自動トランを提供するオンラインプロバイダー
0.76
scription in SRT format.
SRTフォーマットで記述する。
0.78
We transcribe an equal number of video segments with each of the three systems and combine them into a single subtitle file which is delivered to the subtitlers for post-editing.
1. A Transformer-based MT system, the output of which is split into lines and subtitles using a neural segmentation model and hard subtitling constraints;
3. same as 1., but with additional inputs for length control and genre, similarly to the systems proposed in (Schioppa et al , 2021; Matusov et al , 2020);
3. 1.と同様に、長さ制御やジャンルの入力も追加されている(schioppa et al , 2021; matusov et al , 2020)。 訳抜け防止モード: 3 . は 1 と同じだが,長さ制御やジャンルの追加入力がある。 Schioppa et al , 2021 ; Matusov et al , 2020 ) で提案されたシステムと同様である。
0.71
4. an LSTM-based MT system with lower quality than 1., but also using the neural segmentation model;
5. an online provider offering subtitle translation
5 字幕翻訳を提供するオンラインプロバイダ
0.76
in SRT format.
SRTフォーマットで。
0.70
Also here, we distribute the video segments among the systems such that each system contributes a roughly equal portion of the assembled MT subtitle file delivered to the translators.
We extract full sentences from the source subtitle file based on punctuation before translation.
翻訳前の句読点に基づいて原文の字幕ファイルから全文を抽出する。
0.66
The first 15 minute segment of each video is translated directly from the source template without access to MT output to measure baseline productivity of the translators.
4.3 Methodology 4.3.1 Productivity Gain Measurement For both transcription and translation, we ask the subtitlers to measure the time tn (in minutes) spent to post-edit each of the 110 video segments.
Finally, we average the normalized productivities across the three subtitlers h = 1, 2, 3 per task to get an average post-editing productivity gain for segment n:
最後に、3つの字幕h = 1, 2, 3, タスクごとの正規化積を平均化し、セグメント n の平均編集後生産性ゲインを得る。
0.63
3(cid:88) h=1
3(第88回) h=1 である。
0.46
ˆPn = 1 3 Pn,h Pbase,h
は、pn= 1 3 Pn,h Pbase,h
0.42
(2) To evaluate the expressiveness of a given metric we compute the Spearman’s rank correlation coefficient rs between the per-segment metric scores and ˆPn for all segments of all three videos.
We choose Spearman’s correlation in favour of Pearson’s correlation because subtitle quality varies a lot for different video segments and different systems, and we don’t expect the metrics to behave linearly in this range.
4.3.2 Direct Assessment For the translation task we additionally gather direct assessment scores for each segment.
4.3.2 直接評価 翻訳タスクでは、各セグメントの直接評価スコアも収集する。
0.77
For this we ask the translators to give two scores (referred to as Un and Qn, respectively) according to the following descriptions:
このために、翻訳者に次の記述に従って2つのスコア(それぞれunとQnと参照)を与えるよう依頼する。
0.77
1. "Rate the overall usefulness of the automatically translated subtitles in this segment for post-editing purposes on a scale from 0 (completely useless) to 100 (perfect, not a single change needed)."
2. "Rate the overall quality of the automatically translated subtitles in this segment as perceived by a viewer on a scale from 0 (completely incomprehensible) to 100 (perfect, completely fluent and accurate). The score should reflect how well the automatic translation conveys the semantics of the original subtitles, and should also reflect how well the translated subtitles are formatted."
Finally, we average the z-scores across the three translators to get expected usefulness and quality assessment scores for each segment, which we will refer to as ˆUn and ˆQn, respectively.
4.4 Results 4.4.1 Post-Editing of English Transcription The baseline productivities Pbase of the three subtitlers A, B and C when transcribing the first 15 minutes of each video from scratch are 3.4, 2.8 and 2.7 subtitles per minute of work, respectively.
4.4 英語の書き起こし後4.4.1 ビデオの最初の15分をスクラッチから書き込む場合の3つの字幕a,b,cのベースライン積数pbaseはそれぞれ3.4,2.8,2.7字幕/分である。 訳抜け防止モード: 4.4 Results 4.4.1 Post -Editing of English Transcription The baseline productivities Pbase of the three subtitler A, B and C when when ビデオの最初の15分をスクラッチから 3.4と2.8と2.7の字幕です。
0.79
Postediting changes their productivities to 3.9, 2.6 and 3.1 subtitles per minute on average for the other segments, meaning subtitlers A and C work faster when post-editing automatic subtitles, while subtitler B does not benefit from them.
Table 1 shows the analysis of the correlation between automatic metric scores and productivity gains, calculated for each of the 110 one-minute video segments.
This confirms the natural assumption that the more words the ASR system recognized correctly in a given segment, the less time is necessary for post-editing.
Subtitler A’s post-editing gains are more predictable than those of the other two subtitlers.
サブタイトルaの編集後利益は、他の2つのサブタイトルよりも予測可能である。
0.59
This indicates that the subtitlers have different workflows and do not make use of the automatic subtitles with the same consistency.
これは、字幕が異なるワークフローを持ち、同じ一貫性を持つ自動字幕を使用しないことを示している。
0.64
Row 2 shows that making WER case-sensitive and keeping punctuation marks as part of the words does not improve correlation consistently.
2行目は、単語の一部として句読点を保持することによって、相関性が一貫して向上しないことを示す。 訳抜け防止モード: Row 2 はそれを示します WER の場合 -単語の一部として句読点を敏感に維持する 常に相関は改善しません
0.65
Although we believe that casing and punctuation errors harm subtitle quality, these errors might not have a significant impact on post-editing time because correcting them requires changing single characters only.
Row 3 shows that extending the original WER definition by simply inserting end-ofline and end-of-block tokens into the text does not lead to improvements either.
Table 1: Spearman’s correlation rs between automatic metric scores and post-editing productivity gains Pn on all 110 video segments for the English transcription task.
The last column shows correlation to the productivity gain averaged across subtitlers ˆPn.
最後のコラムは、字幕毎の平均生産性向上率との相関を示す。
0.51
of Table 1, the correlation is lower. Unfortunately, for the same reasons as for the case of WER, we have to apply SubER to lower-cased text - as it is the default setting for the TER metric - to avoid a drop in correlation.
Correlations for t-WER (see Section 3.3) suggest that a word-level time-alignment using interpolation may result in misalignments which are punished too harsh in comparison to which mistimings are still tolerated by the post-editors.
This shows that the subtitle formatting defined by the number of subtitle blocks, number of lines and number of words per line is in itself an important feature affecting the post-editing effort.
4.4.2 Post-Editing of Spanish Translation Baseline productivities Pbase of the translators D, E and F are 1.9, 1.8 and 1.1 subtitles per minute, respectively.
On average, their productivity changes to 1.6, 2.0 and 1.1 when post-editing, meaning only subtitler B gains consistently.
平均すると、編集後の生産性は1.6、2.0、および1.1に変化し、字幕Bのみが一貫して上昇する。
0.51
Subtitler A is more productive on one of the videos, but slows down significantly for the other two.
字幕Aはビデオの1つで生産性が向上するが、他の2つでは大幅に低下する。
0.65
Table 2 shows performances of the different MT metrics.
表2は、異なるMTメトリクスのパフォーマンスを示しています。
0.62
In addition to post-edit effort, we show how well the metrics agree with human judgments of the usefulness and quality (see Section 4.3.2) for each of the 110 one-minute video segments.
Sometimes even research is required (e g bible verses for Midnight Mass).
時には研究が必要となることもある(例:真夜中のミサの聖書)。
0.57
Despite this, the subjectively perceived usefulness ˆUn of the automatic subtitles for post-editing can be predicted from automatic scores with a Spearman’s correlation of up to −0.591.
The quality judgement ˆQn shows even higher correlations of up to 0.659.
クオリティ判定では、最大0.659の相関がさらに高い。
0.60
We compare the baseline MT metrics BLEU and TER when applied to the subtitle block-level vs. the sentence-level.
字幕ブロックレベルと文レベルに適用した場合のmtメトリクスbleuとterを比較した。
0.71
We note that BLEU on subtitlelevel is identical to t-BLEU (Cherry et al , 2021) for the considered case of template translation, where timestamps in hypothesis and reference are identical.
サブタイトルレベルのBLEUはテンプレート翻訳の場合のt-BLEU(Cherry et al , 2021)と同一であり、仮説と参照のタイムスタンプは同一である。
0.70
Overall, BLEU and TER perform similarly.
BLEUとTERも同様に動作する。
0.59
For both, evaluation on subtitle-level outperforms evaluation on sentence-level.
いずれの場合も、字幕レベルの評価は文レベルの評価よりも優れる。
0.53
This is because the sentence-pairs extracted from the subtitle files preserve no formatting information, while using subtitle blocks as units is sensitive to how words of a sentence are distributed among subtitles after translation, especially in case of word re-ordering.
これは、字幕ファイルから抽出された文ペアが、字幕ブロックを単位として使用する場合、特に単語の並べ替えの場合、翻訳後の字幕間で文の単語がどのように分配されるかに敏感であるためである。 訳抜け防止モード: これは、サブタイトルファイルから抽出されたペアがフォーマット情報を保存しないためである。 字幕ブロックを単位として使うのは 文の語は翻訳後に字幕に分散される 特に re - ordering の場合。
0.80
Extending BLEU and TER with break tokens to take subtitle segmentation into account shows only minor improvements for the subtitle-level, but significantly improves correlations for the sentencelevel.
Our proposed metric SubER consistently outperforms all considered baseline metrics except for sentence-level BLEU with break tokens, which has a higher correlation for ˆQn and for the scores given by subtitler F. For this subtitler we also observe
提案した指標SubERは,文レベルのBLEUとブレークトークンを併用した場合を除き,ベースラインの指標を常に上回っている。 訳抜け防止モード: 提案するメトリックsuberは,文-レベルbleuとブレークトークンを除くすべてのベースラインメトリックを一貫して上回っています。 qn と字幕 f が与えるスコアとの間には高い相関関係がある。
Table 2: Spearman’s correlation rs between automatic metric scores and Pn, Un and Qn on all 110 video segments for the English→Spanish translation task.
Pn are segment-wise productivity gains from post-editing measured in subtitles per minute of work.
pnは、分単位の字幕で測定された後編集による、セグメント単位での生産性向上である。
0.44
Un and Qn are segment-wise usefulness and quality scores, respectively, which the subtitlers assigned to the automatically generated subtitle segments.
unとqnはそれぞれ、自動的に生成された字幕セグメントに割り当てられた字幕群と品質スコアである。
0.71
that calculating SubER without break tokens improves results.
ブレークトークンのないsuberの計算は、結果を改善する。
0.51
In fact, subtitler F stated that moving around text is not a taxing procedure for him as he is very proficient with keyboard commands.
For the other subtitlers, break tokens as part of the metric are shown to have a clear positive effect.
他のサブタイトルでは、メートル法の一部としてのブレークトークンは明確なポジティブな効果を示す。
0.63
4.4.3 System-level Results For both transcription and translation we have a pair of systems which differ only in subtitle segmentation (systems 1 and 2).
We expect the system using a neural segmentation model to perform better overall.
ニューラルセグメンテーションモデルを用いたシステム全体のパフォーマンス向上を期待する。
0.67
By definition, WER cannot distinguish between the transcription systems, scores for both are 40.6, 14.2 and 29.5 (%) for the three videos Master of None, Midnight Mass and Peaky Blinders, respectively.
定義上、WERは書き起こしシステムの区別ができず、それぞれ40.6、14.2、29.5(%)の3つのビデオ、Master of None、Midnight Mass、Peaky Blindersのスコアがある。
0.67
(High WER on Master of None is caused by colloquial and mumbling speech.)
(能の師匠のWERは口語と口語が混じり合っている。)
0.43
SubER scores for system 1 are 46.4, 20.3 and 33.1, for system 2 they are 47.3, 22.1 and 34.7.
In addition to SubER, the toolkit implements all baseline metrics used in Table 1 and 2, as well as t-BLEU (Cherry et al , 2021).
SubERに加えて、このツールキットはテーブル1と2で使われるすべてのベースラインメトリクスとt-BLEU(Cherry et al , 2021)を実装している。
0.73
This includes implementations of hypothesis to reference alignment via the Levenshtein algorithm (Section 3.1) or via interpolated word timings (Section 3.3).
All metrics can be calculated directly from SRT input files.
すべてのメトリクスはSRT入力ファイルから直接計算できる。
0.77
Support for other subtitle file formats will be added on demand.
他の字幕ファイルフォーマットのサポートはオンデマンドで追加される。
0.78
6 Conclusion In this work, we proposed SubER – a novel metric for evaluating quality of automatically generated intralingual and interlingual subtitles.
The metric is based on edit distance with shifts, but considers not only the automatically transcribed or translated text, but also subtitle timing and line segmentation information.
It can be used to compare an automatically generated subtitle file to a human-generated one even if the two files contain a different number of subtitles with different timings.
A thorough evaluation by professional subtitlers confirmed that SubER correlates well with their transcription post-editing effort and direct assessment scores of translations.
shows highest correlation as compared to metrics that evaluate either the quality of the text alone, or use different approaches to integrate subtitle timing and segmentation information.
The source code for SubER will be publicly released for the benefit of speech recognition and speech translation research communities, as well as the media and entertainment industry.
References Aitor Álvarez, Marina Balenciaga, Arantza del Pozo, Haritz Arzelus, Anna Matamala, and Carlos-D.
Aitor alvarez、Marina Balenciaga、Arantza del Pozo、Haritz Arzelus、Anna Matamala、Carlos-Dなどを参照。
0.80
Martínez-Hinarejos.
martínez-hinarejos所属。
0.25
2016. Impact of automatic segmentation on the quality, productivity and selfreported post-editing effort of intralingual subtiIn Proceedings of the Tenth International tles.
2017. Embracing the threat: machine translation as a solution for subtitling.
2017. 脅威を受け入れる: サブティットリングのソリューションとしての機械翻訳。
0.58
Perspectives, 25(3):492–508.
25(3):492-508。
0.73
Colin Cherry, Naveen Arivazhagan, Dirk Padfield, and Maxim Krikun.
コリン・チェリー、ナヴィーン・アリバジャガン、ディルク・パドフィールド、マキシム・クリクン。
0.55
2021. Subtitle translation as markup translation.
2021. 字幕訳はマークアップ翻訳。
0.58
Proc. Interspeech 2021, pages 2237– 2241.
Proc 2021年、2237-2241頁。
0.48
Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mauˇcec, Anja Turner, and Martin Volk.
Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mau'cec, Anja Turner, Martin Volk 訳抜け防止モード: Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mau'cec アンジャ・ターナーとマーティン・ボルク。
0.83
2014. Machine translation for subtitling: A large-scale evalIn Proceedings of the Ninth International uation.
2006. A study of translation edit rate with targeted human annotation.
2006. 人為的アノテーションを用いた翻訳編集率の検討
0.54
In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, pages 223–231, Cambridge, Massachusetts, USA.
The 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, page 223–231, Cambridge, Massachusetts, USA (英語)
0.42
Association for Machine Translation in the Americas.
アメリカ機械翻訳協会(Association for Machine Translation in the Americas)の略。
0.50
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi.