論文の概要、ライセンス

# (参考訳) suber: 字幕品質の自動評価のための指標 [全文訳有]

SubER: A Metric for Automatic Evaluation of Subtitle Quality ( http://arxiv.org/abs/2205.05805v1 )

ライセンス: CC BY-SA 4.0
Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov(参考訳) 本稿では, 自動生成字幕の品質評価について, 機械翻訳音声や翻訳音声の品質だけでなく, 線分節や字幕タイミングの質についても検討する。 本稿では,これらすべての字幕特性を考慮に入れたシフト付き編集距離に基づく新しい指標SubERを提案する。 書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。 編集後シナリオにおける注意深い人的評価は、新しい指標が編集後作業と人的評価スコアとの相関が高く、WERやBLEUのような字幕テキストのみを考慮したベースラインメトリクスよりも優れており、セグメンテーションとタイミング機能を統合するための既存の方法であることを示している。

This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing. We propose SubER - a single novel metric based on edit distance with shifts that takes all of these subtitle properties into account. We compare it to existing metrics for evaluating transcription, translation, and subtitle quality. A careful human evaluation in a post-editing scenario shows that the new metric has a high correlation with the post-editing effort and direct human assessment scores, outperforming baseline metrics considering only the subtitle text, such as WER and BLEU, and existing methods to integrate segmentation and timing features.
公開日: Wed, 11 May 2022 23:52:09 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
SubER: A Metric for Automatic Evaluation of Subtitle Quality suber: 字幕品質の自動評価のための指標 0.79
Patrick Wilken パトリック・ウィルケン 0.44
AppTek Aachen, Germany pwilken@apptek.com AppTek Aachen, Germany pwilken@apptek.com 0.44
Panayota Georgakopoulou パナヨタ・ゲオルガナコプールー(panayota georgakopoulou) 0.30
Athena Consultancy アテナコンサルタント 0.58
Athens, Greece Evgeny Matusov アテネ、ギリシャ エヴゲニー・マトゥソフ 0.58
AppTek Aachen, Germany AppTek Aachen (複数形 Aachens) 0.33
yota@athenaconsultan cy.eu yota@athenaconsultan cy.eu 0.39
ematusov@apptek.com ematusov@apptek.com 0.39
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] L C . s c [ 1 v 5 0 8 5 0 ]LC。 sc [ 1 v 5 0 8 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing. 概要 本稿では, 自動生成字幕の品質評価について, 機械翻訳音声や翻訳音声の品質だけでなく, 線分節や字幕タイミングの質についても検討する。 0.59
We propose SubER - a single novel metric based on edit distance with shifts that takes all of these subtitle properties into account. 本稿では,これらすべての字幕特性を考慮に入れたシフト付き編集距離に基づく新しい指標SubERを提案する。 0.76
We compare it to existing metrics for evaluating transcription, translation, and subtitle quality. 書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。 0.63
A careful human evaluation in a post-editing scenario shows that the new metric has a high correlation with the post-editing effort and direct human assessment scores, outperforming baseline metrics considering only the subtitle text, such as WER and BLEU, and existing methods to integrate segmentation and timing features. 編集後シナリオにおける注意深い人的評価は、新しい指標が編集後作業と人的評価スコアとの相関が高く、WERやBLEUのような字幕テキストのみを考慮したベースラインメトリクスよりも優れており、セグメンテーションとタイミング機能を統合するための既存の方法であることを示している。 0.69
1 Introduction The use of automatically created subtitles has become popular due to improved speech recognition (ASR) and machine translation (MT) quality in recent years. 1 はじめに 近年、音声認識(asr)と機械翻訳(mt)の品質向上により、自動生成字幕の使用が普及している。 0.55
Most notably, they are used on the web to make content available to a broad audience in a cost-efficient and scalable way. 最も注目すべきは、web上で、コスト効率が高くスケーラブルな方法で幅広いオーディエンスにコンテンツを提供するために使用されることです。 0.59
They also gain attraction in the media industry, where they can be an aid to professional subtitlers and lead to increased productivity. メディア業界でも注目を集めており、プロの字幕作家の助けとなり、生産性を高めることができる。 0.55
In this work, we address the problem of measuring the quality of such automatic subtitling systems. 本研究では,このような自動サブティットリングシステムの品質を計測する問題に対処する。 0.76
We argue that existing metrics which compare the plain text output of an ASR or MT system to a reference text are not sufficient to reflect the particularities of the subtitling task. ASR や MT システムのプレーンテキスト出力を参照テキストと比較する既存のメトリクスは、サブティットリングタスクの特異性を反映するには不十分である、と我々は主張する。 0.80
We consider two use cases: ユースケースは2つ検討する。 0.58
1) running speech recognition on the audio track of a video to create subtitles in the original language; 1) ビデオの音声トラック上で音声認識を行い,原文の字幕を作成すること。 0.70
2) translating existing subtitle files with an MT system. 2)既存の字幕ファイルをMTシステムで翻訳する。 0.85
For the first case, the word error rate (WER) of the ASR system is a natural choice for quality control. 最初のケースでは、ASRシステムのワードエラー率(WER)が品質管理の自然な選択である。 0.65
For MT there exist a MT には A が存在する。 0.65
wider range of automatic metrics such as BLEU (Papineni et al , 2002), TER (Snover et al , 2006), chrF (Popovi´c, 2015) and, more recently, learned metrics like BertScore (Zhang et al , 2019) and COMET (Rei et al , 2020). BLEU (Papineni et al , 2002), TER (Snover et al , 2006), chrF (Popovi ́c, 2015), さらに最近では BertScore (Zhang et al , 2019) や COMET (Rei et al , 2020) など,幅広い自動メトリクスが学習されている。 0.76
These existing metrics are suited to measure the quality of ASR and MT in terms of recognized or translated content only. これらの既存の指標は、認識または翻訳されたコンテンツのみの観点からasrとmtの品質を測定するのに適している。
訳抜け防止モード: これらの既存の指標は asr及びmtの品質を、認識または翻訳されたコンテンツのみの観点から測定する。
0.71
However, subtitles are defined by more than just their textual content: they include timing information, as well as formatting with possible line breaks within a sentence in syntactically and semantically proper positions. しかし、サブタイトルは、単にテキストの内容以上のもので定義されており、タイミング情報や、構文的にも意味的にも適切な位置にある文の行分割が可能なフォーマットが含まれる。 0.64
Figure 1 shows examples of subtitle files in the common SubRip text (SRT) format. 図1は、共通のSubRipテキスト(SRT)フォーマットでサブタイトルファイルの例を示します。 0.85
Evidently, it differs from plain text, in particular: 特に平文とは明らかに異なる。 0.43
• The text is segmented into blocks. • テキストはブロックに分割される。 0.80
These blocks are distinct from sentences. これらのブロックは文と異なる。 0.68
A sentence can span several blocks, a block can contain multiple sentences. 文は複数のブロックにまたがり、ブロックは複数の文を含むことができる。 0.64
• A block may be further split into lines. • ブロックはさらに線に分割することができる。 0.88
• Start and end times define when text is dis- • テキストがdisである場合の開始と終了時間を定義する。 0.66
played. All of these additional characteristics are crucial for the viewers’ comprehension of the content. プレイ。 これらの追加的な特徴は、視聴者のコンテンツ理解に不可欠である。 0.69
Professional subtitlers check and possibly improve them as part of the machine-assisted process of subtitle creation. プロの字幕作成者は、字幕作成の機械支援プロセスの一部としてそれをチェックし、改善する可能性がある。 0.41
To assess the quality of automatically created subtitle files, it is beneficial to have a single metric that evaluates the ASR/MT quality and the quality of the characteristics listed above. 自動作成した字幕ファイルの品質を評価するためには,ASR/MTの品質と上記の特徴の質を評価する単一の指標を持つことが重要である。 0.81
The main contributions of this work are: この作品の主な貢献は次のとおりである。 0.67
1. A novel segmentation- and timing-aware quality metric designed for the task of automatic subtitling. 1.自動潜水作業用に設計された新しいセグメンテーション・タイミング対応品質指標。 0.70
2. A human evaluation that analyzes how well the proposed metric correlates with human judgements of subtitle quality, measured in 2 提案した指標が字幕品質の人的判断とどのように相関しているかを分析する人的評価 0.76
英語(論文から抽出)日本語訳スコア
694 00:50:45,500 -> 00:50:47,666 For the brandy and champagne you bought me. 694 00:50:45,500 -> 00:50:47,666 私を買ったブランデーとシャンパン 0.61
634 00:50:44,960 -> 00:50:47,680 For the champagne and brandy you bought me. 634 00:50:44,960 -> 00:50:47,680 シャンパンとブランデーが買ってくれた。 0.56
695 00:50:47,750 -> 00:50:51,375 As I remember, it was the booze that put you to sleep a little prematurely. 695 00:50:47,750 -> 00:50:51,375 記憶に残るのは、少し早寝させるのが酒だった。 0.72
635 00:50:47,760 -> 00:50:51,200 As I recall, the booze put you to sleep a little prematurely. 635 00:50:47,760 -> 00:50:51,200 思い出すと、お酒は少し早寝させた。 0.70
696 00:50:52,208 -> 00:50:54,291 Ladies and gentlemen, 696 00:50:52,208 -> 00:50:54,291 紳士。 0.26
697 00:50:54,916 -> 00:50:57,291 the dance is about to begin. 697 00:50:54,916 -> 00:50:57,291 ダンスが始まる。 0.68
636 00:50:52,200 -> 00:50:57,120 Ladies and gentlemen, the dance is about to begin. 636 00:50:52,200 -> 00:50:57,120 レディーズと紳士がダンスを始めようとしている。 0.63
Figure 1: Two examples of subtitles in SRT format for the same video excerpt. 図1: 同じビデオが抜粋されたSRT形式の字幕の2つの例。 0.77
Note the different line and block segmentation. 異なる行とブロックのセグメンテーションに注意してください。 0.64
Also note that subtitles on the right have been condensed for improved readability. また、右の字幕は読みやすさを改善するために要約されている。 0.60
post-editing effort as well as direct assessment scores. 編集後の努力と直接的な評価スコア。 0.67
3. The publication of a scoring tool to calculate the proposed metric as well as many baseline metrics, directly operating on subtitle files: https://github.com/a pptek/SubER 3. 提案されているメトリクスと多くのベースラインメトリクスを計算するためのスコアリングツールを公開し、サブタイトルファイルで直接動作する。 0.64
2 Subtitle Quality Assessment in the 第2章 字幕品質評価 0.71
Media Industry Related to this work are subtitling quality metrics used in the media industry. メディア産業 この仕事に関連して、メディア業界で使用される品質指標を微調整している。 0.66
The most widely used ones to date are NER (Romero-Fresco and Pérez, 2015) and NTR (Romero-Fresco and Pöchhacker, 2017) for live subtitle quality, the former addressing intralingual subtitles or captions and the latter interlingual ones. NER (Romero-Fresco and Pérez, 2015) と NTR (Romero-Fresco and Pöchhacker, 2017) は、現在最も広く使われている字幕である。
訳抜け防止モード: 現在最も広く使われているものはNER(Romro - Fresco and Pérez, 2015)である。 そして、NTR(Romro - Fresco and Pöchhacker, 2017)は、ライブ字幕品質を提供する。 前者は言語内字幕または字幕、後者は言語間字幕である。
0.61
Offline interlingual subtitles have traditionally been assessed on the basis of internal quality guidelines and error typologies produced by media localization companies. オフラインの言語間字幕は、伝統的にメディアローカライゼーション会社による内部品質ガイドラインとエラータイプロジーに基づいて評価されてきた。 0.66
To address this gap, the FAR model (Pedersen, 2017) was developed and there have also been attempts to implement a version of MQM1. このギャップに対処するため、FARモデル(Pedersen, 2017)が開発され、MQM1のバージョンの実装も試みられている。 0.71
None of the above metrics, however, are automatic ones. ただし、上記の指標はいずれも自動ではない。 0.70
They require manual evaluation by an expert to categorize errors and assign appropriate penalties depending on their severity. エラーを分類し、その重大度に応じて適切な罰を課すには、専門家による手作業による評価が必要である。
訳抜け防止モード: 専門家による手作業による評価が必要である 重大さに応じて エラーを分類し 適切な刑罰を課す。
0.65
This makes their use costly and time-consuming. これにより、コストと時間を要する。 0.66
In this work we therefore address automatic quality assessment of subtitle files by comparing them to a professionally created reference. そこで本研究では,字幕ファイルの自動品質評価を,専門家が作成した参照と比較することで解決する。 0.68
1Multidimensional Quality Metrics (MQM) Definition http://www.qt21.eu/m qm-definition/definition-2015-1230.htm l 1Multidimensional Quality Metrics (MQM) Definition http://www.qt21.eu/m qm-definition/defini tion-2015-1230.html 0.21
3 Automatic Metrics for Subtitling 3.1 Baseline Approaches When subtitling in the original language of a video, the baseline quality measurement is to calculate word error rate (WER) against a reference transcription. 3) ビデオの原言語を副詞化する際のベースラインアプローチの副詞化のための自動メトリクス 3.1 基準品質測定は、参照転写に対する単語誤り率(wer)を計算することである。 0.78
Traditionally, WER is computed on lowercased words and without punctuation. 伝統的に、WERは小文字で計算され、句読めない。 0.55
We show results for a cased and punctuated variant as well, as those are important aspects of subtitle quality. 字幕品質の重要な側面であるケースドおよび句読点変種についても,結果を示す。 0.65
Because of the efficiency of the Levenshtein algorithm, WER calculation can be done on the whole file without splitting it into segments. Levenshteinアルゴリズムの効率のため、WER計算はセグメントに分割することなく全ファイルで行うことができる。 0.73
For translation, automatic metrics are usually computed on sentence level. 翻訳では、自動メトリクスは通常文レベルで計算される。 0.73
Karakanta et al (2020a) and other related work assumes hypothesisreference sentence pairs to be given for subtitle scoring. Karakanta et al (2020a) などの関連作品では、サブタイトルスコアリングのために仮説参照文対が与えられると仮定している。 0.61
However, in the most general case we only have access to the reference subtitle file and the hypothesis subtitle file to be scored. しかし、最も一般的な場合、我々は参照字幕ファイルと、スコア付けされる仮説字幕ファイルのみにアクセスできます。 0.71
They do not contain any explicit sentence boundary information. 明示的な文境界情報は含まない。 0.59
To calculate traditional MT metrics (BLEU, TER and chrF), we first define reference segments and then align the hypothesis subtitle text to these reference segments by minimizing the edit distance ("Levenshtein alignment") (Matusov et al , 2005). 従来のMTメトリクス(BLEU,TER,chrF)を計算するために、まず参照セグメントを定義し、次に編集距離を最小化して仮説の字幕テキストをこれらの参照セグメントに整列させる(Matusov et al , 2005)。 0.78
Two choices of reference segments are reasonable: 参照セグメントの2つの選択は妥当である。 0.65
1) subtitle blocks; 2) sentences, split according to simple rules based on sentence-final punctuation, possibly spanning across subtitle blocks. 1) 字幕ブロック 2)文は、文末句読点に基づく単純な規則に従って分割され、おそらくサブタイトルブロックにまたがる。 0.63
Only for the case of translation from a subtitle template, which preserves subtitle timings, there is a third option, namely to directly use the parallel subtitle blocks as units without any alignment step. 字幕のタイミングを保存する字幕テンプレートからの翻訳の場合のみ、パラレル字幕ブロックをアライメントステップなしでユニットとして直接使用するという3番目の選択肢がある。 0.74
This makes the metric sensitive to how translated これにより、メートル法は翻訳方法に敏感になる 0.61
英語(論文から抽出)日本語訳スコア
sentences are distributed among several subtitles, which is a problem a subtitle translation system has to solve. 文は複数の字幕に分散され、字幕翻訳システムが解決しなければならない問題である。 0.71
To evaluate subtitle segmentation quality in isolation, Alvarez et al (2017); Karakanta et al (2020b,c) calculate precision and recall of predicted breaks. Alvarez et al (2017)、Karakanta et al (2020b,c)は、単独で字幕セグメンテーションの品質を評価するために、予測ブレークの精度とリコールを計算する。 0.66
Such an analysis is only possible when the subtitle text to be segmented is fixed and the only degree of freedom is the position of breaks. このような分析は、セグメンテーションされる字幕テキストが固定され、唯一の自由度がブレークの位置である場合にのみ可能である。 0.79
We however consider the general case, where subtitles that differ in text, segmentation and timing are compared and evaluated. しかし、テキスト、セグメンテーション、タイミングで異なる字幕を比較して評価する一般的な場合を考える。 0.55
3.2 Line Break Tokens A simple method to extend the baseline metrics to take line and subtitle breaks into account is to insert special tokens at the corresponding positions into the subtitle text (Karakanta et al , 2020a; Matusov et al , 2019). 3.2 line break tokens ラインとサブタイトルを考慮に入れるためにベースラインメトリクスを拡張する簡単な方法は、サブタイトルテキストに対応する位置に特別なトークンを挿入することだ(karakanta et al , 2020a; matusov et al , 2019)。 0.80
Figure 2 shows an example. The automatic metrics treat these tokens as any other word, e g BLEU includes them in n-grams, WER and TER count edit operations for them. 図2は例を示す。 自動メトリクスはこれらのトークンを他の言葉として扱い、例えば、BLEUはそれらをn-gram、WER、TERカウントの編集操作に含めている。
訳抜け防止モード: 図2は例を示す。 自動メトリクスはこれらのトークンを他の言葉として扱い、eg BLEUはそれらをn-グラムに含める。 WER と TER は編集操作をカウントする。
0.78
Therefore, subtitles with a segmentation not matching the reference will get lower scores. したがって、参照と一致しないセグメンテーションを持つ字幕はスコアが低くなる。 0.73
3.3 Timing-Based Segment Alignment The time alignment method proposed in Cherry et al (2021) to calculate t-BLEU is an alternative to Levenshtein hypothesis-to-refere nce alignment that offers the potential advantage of punishing mistimed words. 3.3 タイミングベースセグメンションアライメント t-BLEUを計算するためのCherry et al (2021)で提案された時間アライメント法は、不適切な単語を罰する潜在的な利点を提供するレヴェンシュテイン仮説-参照アライメントの代替である。 0.70
It uses interpolation of the hypothesis subtitle timings to word-level. 仮説の副タイトルのタイミングを単語レベルで補間する。 0.61
Mistimed words may get assigned to a segment without a corresponding reference word, or will even be dropped from the hypothesis if they do not fall into any reference segment. ミスタイムされた単語は、対応する参照語なしでセグメントに割り当てられることもあるし、いかなる参照セグメントにも入らない場合は仮説から外されることもある。 0.76
In this work we consider translation from a template file, thus time alignment is equivalent to using subtitle blocks as unit. この作業ではテンプレートファイルからの翻訳を検討するので、時間アライメントはサブタイトルブロックを単位として使用するのと同じである。 0.70
However, for the transcription task, where subtitle timings of hypothesis and reference are different, we analyze a variant of WER that operates on "t-BLEU segments", i.e. allows for word matches only if hypothesis and reference word are aligned in time (according to interpolated hypothesis word timings). しかし、仮説と参照の字幕のタイミングが異なる文字転写タスクでは、仮説と参照単語が時間に一致した場合にのみ一致する「t-bleuセグメント」で動作するwerの変種を解析する(補間仮説語タイミングによる)。
訳抜け防止モード: しかし、仮説と参照の字幕タイミングが異なる書き起こしタスクの場合。 We analyze a variant of WER that operating on "t - BLEU segments", すなわち、仮説と参照語が時間的に一致している場合のみ、単語マッチングが可能である(補間された仮説語タイミングによる)。
0.76
We refer to this variant as t-WER. この変種を t-WER と呼ぶ。 0.68
3.4 New Metric: Subtitle Edit Rate (SubER) None of the above-mentioned metrics considers all of the relevant information present in a subtitle file, namely subtitle text, line segmentation and timing. 3.4 New Metric: Subtitle Edit Rate (SubER) 上記のメトリクスでは、サブタイトルファイルにある関連する情報、すなわちサブタイトルテキスト、行のセグメンテーション、タイミングを考慮していない。 0.80
We therefore propose a new metric called そこで私たちは新しい測定基準を提案しました 0.52
subtitle edit rate (SubER) that attempts to cover all these aspects, and on top avoids segmentation of the subtitle files into aligned hypothesis-reference pairs as a pre-processing step. これらすべての側面をカバーしようとするサブタイトル編集率(suber)は、前処理ステップとしてサブタイトルファイルのアライメントされた仮説参照ペアへの分割を回避する。 0.69
We choose TER (Snover et al , 2006) as the basis of SubER because of its interpretability, especially in the case of post-editing. TER (Snover et al , 2006) を SubER の基盤として選択する。
訳抜け防止モード: TER(Snover et al, 2006 ) を SubER の基盤として選択する。 特にポストの場合、編集します。
0.52
It corresponds to the number of edit operations, namely substitutions, deletions, insertions and shifts of words that are required to turn the hypothesis text into the reference. これは、仮説テキストを参照に変換するために必要な単語の置換、削除、挿入、シフトといった編集操作の数に対応する。 0.64
Also, it allows for easy integration of segmentation and timing information by extending it with break edit operations and time-alignment constraints. また、ブレーク編集操作と時間調整制約で拡張することで、セグメンテーションとタイミング情報を簡単に統合できる。 0.74
We define the SubER score to be the minimal 私たちはSubERスコアを最小限と定義します 0.79
possible value of (read "#" as "number of"): 可能な値("#"を"number of"と読む)。 0.30
# word edits + # break edits + # shifts # reference words + # reference breaks # word edits + # break edits + # shifts # reference words + # reference breaks
訳抜け防止モード: # WordEdits + # breakEdits + # shifts # reference words + # 参照ブレーク
0.68
SubER = where SubER = どこに 0.55
• a hypothesis word is only regarded as correct (no edit) if it is part of a subtitle that overlaps in time with the subtitle containing the matching reference word (otherwise edits are required, e g deletion + insertion). • 仮説語は、一致する参照語を含む副タイトルと重複する副タイトルの一部である場合のみ正しい(編集なし)と見なされる(それ以外の編集は、削除+挿入など)。 0.70
• word edits are insertions, deletions and substitutions of words, substitutions being only allowed if the hypothesis and reference word are from subtitles that overlap in time. • 単語編集は、単語の挿入、削除、置換であり、仮説と参照語が時間に重なる副題からの場合にのみ許可される。 0.72
• break edits are insertions, deletions and substitutions of breaks, treated as additional tokens (<eol> and <eob>) inserted at the positions of the breaks. • ブレーク編集は、ブレークの挿入、削除、置換であり、ブレークの位置に挿入された追加トークン(<eol>と<eob>)として扱われる。 0.64
Substitutions are only allowed between end-of-line and end-of-block, not between a word and a break, and the same time-overlap condition as for word substitution applies. 単語の終端と終端の間でのみ置換が許可され、単語と終端の間ではなく、単語置換と同じ時間オーバーラップ条件が適用される。 0.69
• shifts are movements of one or more adjacent hypothesis tokens to a position of a matching phrase in the reference. • 1つ以上の隣接した仮説トークンの動きを、参照中の一致するフレーズの位置にシフトする。 0.84
Only allowed if all the shifted words come from a hypothesis subtitle that overlaps in time with the subtitle of the matching reference word. すべてのシフトワードが、一致する参照ワードのサブタイトルと時間に重なる仮説のサブタイトルから来ている場合にのみ許可される。 0.75
The shifted phrase may consist of any combination of words and break tokens. シフトされたフレーズは、単語とブレークトークンの組み合わせから成りうる。 0.70
We only consider subtitle timings present in the subtitle files, as opposed to interpolating timings of words as done by Cherry et al (2021). 私たちは、cherry et al (2021) によってなされた単語の補間タイミングとは対照的に、字幕ファイルに存在する字幕のタイミングだけを考える。
訳抜け防止モード: 我々は、字幕ファイルにのみ存在する字幕タイミングを、それとは対照的に考慮する。 Cherry et al (2021 ) による語句の補間
0.70
This avoids hypothesis words "falling off the edges" of reference subtitles, e g in case the hypothesis subtitle これは、仮説の字幕の場合のgのように、参照字幕の「端から落ちる」仮説の単語を避ける 0.67
英語(論文から抽出)日本語訳スコア
For the champagne <eol> and brandy you bought me. シャンパン<eol>とブランデーで私を買ってくれました。 0.69
<eob> As I recall, the booze put you <eol> to sleep a little prematurely. eob> 思い出すように、お酒は、少し早寝させました。 0.48
<eob> Ladies and gentlemen, <eol> the dance is about to begin. eob> 女性と紳士,<eol> ダンスが始まろうとしている。 0.64
<eob> Figure 2: Example for usage of end-of-line (<eol>) and end-of-block tokens (<eob>) to represent subtitle formatting. <eob> 図2: 字幕フォーマットを表すために、行末(<eol>)とブロックのトークン(<eob>)を使用する例。
訳抜け防止モード: <eob> 図2: 行末-行末の使用例(<eol > ) and end - of - block tokens ( < eob > ) 字幕形式を表す。
0.63
Corresponds to right subtitle from Figure 1. 図1の右の字幕に対応する。 0.73
Symbols are adopted from Karakanta et al (2020b). シンボルは Karakanta et al (2020b) から採用されている。 0.63
n o i t i s o p d r o w s i s e h t o p y h n o i t i s o p d r o w s i s e h t o p y h 0.42
reference word position Figure 3: Visualization of SubER applied to the subtitles from Figure 1 (hypothesis left, reference right). 参照語の位置 図3: 図1の字幕に適用されるSubERの可視化(仮説左、参照右)。 0.78
Ticks on the axes indicate subtitle block boundaries. 接尾辞は字幕ブロックの境界を示す。 0.60
Grey areas show regions of time-overlapping reference and hypothesis subtitles. 灰色の領域は時間オーバーラップの参照と仮説のサブタイトルの領域を示す。 0.61
Word matches, substitutions and shifts are allowed only within those areas. 単語マッチング、置換、シフトは、これらの領域内でのみ許可される。 0.60
Black squares represent word alignments, blue squares represent break token alignments. 黒い四角形は単語アライメントを表し、青い四角形はブレークトークンアライメントを表す。 0.55
Red borders mark shifted phrases, red crosses indicate substitutions. 赤い境界マークシフトフレーズ、赤十字は置換を表す。 0.81
35 reference words (including breaks), 3 insertions, 2 substitutions, 3 shifts lead to a SubER score of (3 + 2 + 3)/35 = 22.86%. 35の基準語(ブレークを含む)、3の挿入、2の置換、3のシフトにより、SubERスコアは3 + 2 + 3)/35 = 22.86%となる。 0.68
starts a fraction of a second early. ほんの少し早い段階で始まります 0.44
It also prevents alignment errors originating from the assumption that all words have the same duration. また、すべての単語が同じ持続時間であるという仮定から生じるアライメントエラーを防ぐ。 0.76
The time-overlap condition can be thought of as constraining the search space for Levenshteindistance calculation. 時間オーバーラップ条件は、Levenshteindistance計算の探索空間を制約していると考えられる。 0.80
Figure 3 visualizes this for the subtitles from Figure 1. 図3は、図1の字幕を視覚化します。 0.72
In the white areas no word matches are allowed, this can be exploited for an efficient implementation. ホワイトエリアでは単語マッチングは許可されておらず、効率的な実装のために利用することができる。 0.66
The last two hypothesis subtitles overlap with the last reference subtitle and therefore form a single time-aligned region. 最後の2つの仮説のサブタイトルは、最後の参照サブタイトルと重なり、したがって単一の時間に合わせた領域を形成する。 0.53
The shifted 2-word phrase in the bottom left region is "champagne <eol>", showcasing that words and breaks can be shifted in a single operation. 左下領域の2語句は「champagne <eol>」であり, 単語とブレークは1つの操作で移動可能であることを示す。 0.73
In the center region we see the substitution of "recall" with "remember", the inserted (i.e. unaligned) hypothesis words "it", "was" and "that", and a shift of the line break to a different position. 中心領域では「リコール」と「リコール」の置換、挿入された(不整列)仮説の単語「it」、「was」、そして「that」が見られ、行のシフトは異なる位置になる。
訳抜け防止モード: 中央の領域では、" recall" と " remember" の置換が見られます。 挿入された(すなわち、不一致な)仮説語 "it "" それは " と " で、行のずれは別の位置に変わります。
0.69
The break substitution in the upper right region corresponds to the fact that the last block of the right subtitles in Figure 1 is split into two, i.e. end-of-line is replaced by end-of-block. 右上部の分断置換 領域は、図1の右字幕の最後のブロックが2つに分割されているという事実に対応する。 0.57
3.4.1 Implementation Details 3.4.1 実施内容 0.30
We modify the TER implementation of SacreBLEU (Post, 2018) to implement SubER. SacreBLEU (Post, 2018) のTER実装をSubERの実装に変更する。 0.58
We adopt the approximation of greedily searching for the best shift until no further reduction of the edit distance can be achieved (Snover et al , 2006). Snover et al , 2006) では, 編集距離のさらなる削減が達成されなくなるまで, 最適シフトを欲求的に探す近似を採用する。 0.73
Break tokens (<eol> and <eob>) are inserted into the input text. breakトークン(<eol>と<eob>)は入力テキストに挿入される。 0.71
String comparisons between hypothesis and reference words are replaced by a function additionally checking the time-overlap condition. 仮説と参照語の文字列比較は、時間オーバーラップ条件を付加的にチェックする関数に置き換えられる。 0.71
To make SubER calculation feasible for large subtitle files we split hypothesis and reference into parts at time positions where both agree that no subtitle is displayed. 巨大な字幕ファイルに対してSubERの計算を可能にするために、仮説と参照をどちらもサブ字幕が表示されないことに同意する時間位置に分割する。 0.62
The number of edit operations is then added up for all parts. その後、すべての部分に対して編集操作の数が加算される。 0.66
By definition this does not affect the metric score, in contrast to e g segmenting into sentence vs. subtitle blocks when calculating BLEU (Section 3.1). 定義上、これは計量スコアに影響しないが、例えば、bleuを計算する際、文と字幕のブロックに分割する(セクション3.1)。 0.62
4 Human Evaluation To analyze the expressiveness of SubER we conduct a human post-editing experiment on both subtitles automatically generated from audio, as well as automatic translations of subtitle text files. 4 人間の評価 音声から自動生成した副字幕と副字幕テキストファイルの自動翻訳について,人間の後編集実験を行った。 0.74
For each of the two post-editing tasks we employ three professional subtitlers with multiple years of experience in the subtitling industry. 編集後2つのタスクそれぞれに対して、潜入産業で数年間の経験を持つ3人のプロの字幕を雇用しています。 0.49
We evaluate how well automatic metric scores correlate with their post-editing effort and their MT quality judgements. 自動測定値が後処理とMT品質評価とどのように相関するかを評価する。 0.70
There exists previous work measuring the productivity gains from post-editing automatic subtitles under the aspect of MT quality (Etchegoyhen et al , 2014; Bywood et al , 2017; Koponen et al , 2020) and segmentation quality (Álvarez et al , 2016; Alvarez et al , 2017; Matusov et al , 2019), but to the best of our knowledge we conduct the first study with the goal of evaluating an automatic quality metric for subtitling. mt品質 (etchegoyhen et al , 2014; bywood et al , 2017; koponen et al , 2020) とセグメンテーション品質 (allvarez et al , 2016; alvarez et al , 2017; matusov et al , 2019) という側面の下で、編集後の自動字幕による生産性向上を測定する以前の研究がありますが、私たちの知る限りでは、字幕の自動品質指標の評価を目標として、最初の調査を行っています。 0.75
英語(論文から抽出)日本語訳スコア
4.1 Data We perform our experiment using one episode from each of the following shows: 4.1 データ 以下の各番組の1話を用いて実験を行う。 0.77
• Master of None: a comedy-drama series • Midnight Mass: a supernatural horror series • Peaky Blinders: an early 20th century British •マスター・オブ・ノイン:コメディドラマシリーズ •ミッドナイト・マス:スーパーナチュラル・ホラーシリーズ •ピーク・ブリンダーズ:20世紀初頭のイギリス人 0.68
gangster drama Each of the three videos has a duration of approximately 55 minutes. ギャングドラマ 3つのビデオのそれぞれの長さは約55分である。 0.64
They are originally in English, for translation we choose Spanish as the target language. 元々は英語で書かれており、翻訳ではスペイン語をターゲット言語として選択する。 0.65
We use pre-existing English subtitles as template files for human translation, and also as the reference when scoring automatic transcriptions. 我々は、既存の英語字幕を人訳のテンプレートファイルとして、また自動文字起こしの基準として使用しています。 0.62
Pre-existing Spanish subtitles, which follow the English template, are used as reference for MT output. 既存のスペイン語の字幕は英語のテンプレートに従い、MT出力の参照として使用される。 0.74
To gather data points for which we can compare post-editing effort with automatic scores, we manually split the videos into segments of roughly 1 minute, each containing 15 subtitle blocks and 103 words on average. 編集後作業と自動スコアを比較するためのデータポイントを収集するために,動画を約1分間のセグメントに分割し,それぞれ平均で15の字幕ブロックと103の単語を含む。 0.84
We keep the first 15 minutes of each video as one large segment where we measure baseline speed of the subtitlers. 各ビデオの最初の15分を1つの大きなセグメントとして保持し、サブタイトルのベースライン速度を測定します。 0.74
Excluding these, we end up with 35, 38 and 37 segments for the videos, respectively, amounting to a total of 110 source-target reference subtitle pairs. これらを除くと、ビデオには35、38、37のセグメントがあり、合計110のソース・ターゲットの参照字幕ペアになります。 0.66
4.2 Automatic Subtitling Systems For human post-editing, we create automatic English and Spanish subtitle files. 4.2 人間のポスト編集のための自動字幕システム。英語とスペイン語の自動字幕ファイルを作成する。 0.64
We use several different subtitling systems to obtain evaluation data with a wider variety. 我々は,より多様な評価データを得るために,いくつかの異なるサブタイトシステムを用いた。 0.57
The systems differ in ASR/MT, punctuation and segmentation quality. システムはASR/MT、句読点、セグメンテーション品質が異なる。 0.70
We create a single automatic English and Spanish subtitle file for each video, each containing segments coming from different automatic subtitling systems. ビデオごとに英語とスペイン語の自動字幕ファイルを作成し、それぞれが異なる自動字幕システムから派生したセグメントを含む。 0.80
The subtitlers did not know about any of the details on how these files were created to avoid any bias. サブタイトルは、これらのファイルが偏見を避けるためにどのように作られたかの詳細を知らなかった。 0.66
4.2.1 Transcription Systems To create automatic English subtitles from the audio track of the video we use three different systems: 4.2.1 転写システム ビデオのオーディオトラックから英語の自動字幕を作成するには、3つの異なるシステムを使用します。 0.67
1. A hybrid ASR system, the output of which is punctuated and cased by a bi-directional LSTM model and then split into lines and subtitles using a beam search decoder that combines scores of a neural segmentation model 一 双方向LSTMモデルにより出力を定式化し、次に、ニューラルセグメンテーションモデルのスコアを組み合わせたビームサーチデコーダを用いて線と字幕に分割するハイブリッドASRシステム
訳抜け防止モード: 1.ハイブリッドASRシステム、その出力 双方向LSTMモデルによって句読化され、ケース化されます 線と字幕に分割して ビームサーチデコーダで ニューラルセグメンテーションモデルのスコアを組み合わせて
0.80
and hard subtitling constraints, based on the algorithm proposed by Matusov et al (2019); 2. and hard subtitling constraints, based on the algorithm proposed by matusov et al (2019); 2。 0.38
same as 1., but without using a neural model 1と同じですが 神経モデルも使わずに 0.70
for subtitle segmentation; サブタイトルセグメンテーションのために 0.65
3. an online provider offering automatic tran- 3. 自動トランを提供するオンラインプロバイダー 0.76
scription in SRT format. SRTフォーマットで記述する。 0.78
We transcribe an equal number of video segments with each of the three systems and combine them into a single subtitle file which is delivered to the subtitlers for post-editing. 3つのシステムそれぞれに同じ数のビデオセグメントを書き起こし、それらを1つのサブタイトルファイルに組み合わせ、後編集のためにサブタイトルに配信する。 0.73
The first segment of 15 minutes is not transcribed automatically. 15分の最初の部分は自動的に書き起こされない。 0.72
Instead, the subtitlers are asked to transcribe it from scratch to measure their baseline productivity. 代わりに、サブタイトルをスクラッチから書き起こして、ベースラインの生産性を測定するように求められます。 0.57
4.2.2 Translation Systems To create Spanish subtitles we translate the preexisting English subtitles with 5 different systems: 4.2.2 スペイン語の字幕を作成するための翻訳システム 既存の英語字幕を5つの異なるシステムで翻訳する。 0.61
1. A Transformer-based MT system, the output of which is split into lines and subtitles using a neural segmentation model and hard subtitling constraints; 1. トランスフォーマーに基づくMTシステム。その出力は、ニューラルセグメンテーションモデルとハードサブタイリング制約を用いて線と字幕に分けられる。 0.67
2. same as 1., but without using a neural model 2.1と同じですが 神経モデルも使わずに 0.71
for subtitle segmentation; サブタイトルセグメンテーションのために 0.65
3. same as 1., but with additional inputs for length control and genre, similarly to the systems proposed in (Schioppa et al , 2021; Matusov et al , 2020); 3. 1.と同様に、長さ制御やジャンルの入力も追加されている(schioppa et al , 2021; matusov et al , 2020)。
訳抜け防止モード: 3 . は 1 と同じだが,長さ制御やジャンルの追加入力がある。 Schioppa et al , 2021 ; Matusov et al , 2020 ) で提案されたシステムと同様である。
0.71
4. an LSTM-based MT system with lower quality than 1., but also using the neural segmentation model; 4. lstmベースのmtシステムは1.1よりも品質は低いが、ニューラルセグメンテーションモデルも使用する。 0.69
5. an online provider offering subtitle translation 5 字幕翻訳を提供するオンラインプロバイダ 0.76
in SRT format. SRTフォーマットで。 0.70
Also here, we distribute the video segments among the systems such that each system contributes a roughly equal portion of the assembled MT subtitle file delivered to the translators. また,ビデオセグメントを各システム間で分配し,翻訳者に配信されるMT字幕ファイルのほぼ同程度の部分を占めるようにした。 0.79
We extract full sentences from the source subtitle file based on punctuation before translation. 翻訳前の句読点に基づいて原文の字幕ファイルから全文を抽出する。 0.66
The first 15 minute segment of each video is translated directly from the source template without access to MT output to measure baseline productivity of the translators. 各ビデオの最初の15分間のセグメントは、MT出力にアクセスせずにソーステンプレートから直接変換され、トランスレータのベースライン生産性を測定する。
訳抜け防止モード: 各ビデオの最初の15分セグメントは、MT出力にアクセスすることなくソーステンプレートから直接変換される 翻訳者の生産性を測ります
0.84
4.3 Methodology 4.3.1 Productivity Gain Measurement For both transcription and translation, we ask the subtitlers to measure the time tn (in minutes) spent to post-edit each of the 110 video segments. 4.3 方法 4.3.1 生産性の利得の測定 書き起こしと翻訳の両面において、110ビデオセグメントの編集に要する時間tn(分)をサブタイトルに求める。 0.79
As a として 0.75
英語(論文から抽出)日本語訳スコア
measure of post-editing productivity Pn we compute the number of subtitles Sn created per minute of work for the n-th segment: Sn tn 編集後の生産性Pnの測定 n番目のセグメントの作業分毎に生成された字幕数Snを計算する。 0.74
Pn = (1) To make these values comparable between subtitlers we normalize them using the subtitler’s baseline speed Pbase. Pn = (1) これらの値をサブタイトル間で比較するために、サブタイトルのベースライン速度Pbaseを使って正規化します。 0.46
It is computed by averaging the productivity in the first 15-minute segment P1, where the subtitlers work from scratch, over all three videos. 最初の15分間のセグメントp1で生産性を平均し、サブタイトルがスクラッチから動作し、3つのビデオにまたがって計算される。 0.71
Finally, we average the normalized productivities across the three subtitlers h = 1, 2, 3 per task to get an average post-editing productivity gain for segment n: 最後に、3つの字幕h = 1, 2, 3, タスクごとの正規化積を平均化し、セグメント n の平均編集後生産性ゲインを得る。 0.63
3(cid:88) h=1 3(第88回) h=1 である。 0.46
ˆPn = 1 3 Pn,h Pbase,h は、pn= 1 3 Pn,h Pbase,h 0.42
(2) To evaluate the expressiveness of a given metric we compute the Spearman’s rank correlation coefficient rs between the per-segment metric scores and ˆPn for all segments of all three videos. (2) 与えられたメトリクスの表現性を評価するために,全3ビデオのすべてのセグメントに対して,各セグメンテーションのスコアのスコア間のスピアマンのランク相関係数 rs を演算する。 0.57
We choose Spearman’s correlation in favour of Pearson’s correlation because subtitle quality varies a lot for different video segments and different systems, and we don’t expect the metrics to behave linearly in this range. 私たちはピアソンの相関性を選ぶためにスピアーマンの相関性を選択します。なぜならサブタイトルの品質は、異なるビデオセグメントや異なるシステムによって大きく異なり、この範囲でメトリクスが直線的に振る舞うとは思っていません。 0.64
4.3.2 Direct Assessment For the translation task we additionally gather direct assessment scores for each segment. 4.3.2 直接評価 翻訳タスクでは、各セグメントの直接評価スコアも収集する。 0.77
For this we ask the translators to give two scores (referred to as Un and Qn, respectively) according to the following descriptions: このために、翻訳者に次の記述に従って2つのスコア(それぞれunとQnと参照)を与えるよう依頼する。 0.77
1. "Rate the overall usefulness of the automatically translated subtitles in this segment for post-editing purposes on a scale from 0 (completely useless) to 100 (perfect, not a single change needed)." 1.「0(完全に役に立たない)から100(完全な変更は必要ではない)までのスケールで、このセグメントで自動翻訳された字幕の全体的な有用性を評価する。 0.83
2. "Rate the overall quality of the automatically translated subtitles in this segment as perceived by a viewer on a scale from 0 (completely incomprehensible) to 100 (perfect, completely fluent and accurate). The score should reflect how well the automatic translation conveys the semantics of the original subtitles, and should also reflect how well the translated subtitles are formatted." 2.「このセグメントにおける自動翻訳字幕の全体的品質を、0(完全に理解不能)から100(完全、完全に流動的、正確)の尺度で、視聴者が認識するものとして評価する。このスコアは、自動翻訳が原字幕のセマンティクスをいかにうまく伝達するかを反映し、翻訳字幕の書式化の方法も反映すべきである。」 0.78
These scores are standardized into z-scores by subtracting the average and dividing by the standard deviation of scores per translator. これらのスコアは、平均を減算し、翻訳者当たりのスコアの標準偏差によって分割することにより、zスコアに標準化される。
訳抜け防止モード: これらのスコアはzに標準化されます。 平均を減らし、翻訳者毎のスコアの標準偏差で割る。
0.59
Finally, we average the z-scores across the three translators to get expected usefulness and quality assessment scores for each segment, which we will refer to as ˆUn and ˆQn, respectively. 最後に 3つの翻訳者の平均的なz-scoreは、各セグメントに期待される有用性と品質評価スコアを得る。 0.52
4.4 Results 4.4.1 Post-Editing of English Transcription The baseline productivities Pbase of the three subtitlers A, B and C when transcribing the first 15 minutes of each video from scratch are 3.4, 2.8 and 2.7 subtitles per minute of work, respectively. 4.4 英語の書き起こし後4.4.1 ビデオの最初の15分をスクラッチから書き込む場合の3つの字幕a,b,cのベースライン積数pbaseはそれぞれ3.4,2.8,2.7字幕/分である。
訳抜け防止モード: 4.4 Results 4.4.1 Post -Editing of English Transcription The baseline productivities Pbase of the three subtitler A, B and C when when ビデオの最初の15分をスクラッチから 3.4と2.8と2.7の字幕です。
0.79
Postediting changes their productivities to 3.9, 2.6 and 3.1 subtitles per minute on average for the other segments, meaning subtitlers A and C work faster when post-editing automatic subtitles, while subtitler B does not benefit from them. 後付けでは、1分あたり平均3.9、2.6、および3.1の字幕が変更され、字幕A、Cは自動字幕の編集後より高速に動作するが、字幕Bはその恩恵を受けない。 0.53
Table 1 shows the analysis of the correlation between automatic metric scores and productivity gains, calculated for each of the 110 one-minute video segments. 表1は、110の1分間のビデオセグメントごとに算出された、自動メトリックスコアと生産性向上の相関の分析を示す。 0.82
Word error rate (WER) can predict the averaged productivity gain ˆPn with a Spearman’s correlation of −0.676. ワード誤り率 (WER) は、スピアマンの相関値 −0.676 で平均された生産性の上昇を予測できる。 0.76
This confirms the natural assumption that the more words the ASR system recognized correctly in a given segment, the less time is necessary for post-editing. これにより、asrシステムが所定のセグメントで正しく認識される単語が増えるほど、後編集に要する時間が少なくなるという自然な仮定が保証される。 0.59
Subtitler A’s post-editing gains are more predictable than those of the other two subtitlers. サブタイトルaの編集後利益は、他の2つのサブタイトルよりも予測可能である。 0.59
This indicates that the subtitlers have different workflows and do not make use of the automatic subtitles with the same consistency. これは、字幕が異なるワークフローを持ち、同じ一貫性を持つ自動字幕を使用しないことを示している。 0.64
Row 2 shows that making WER case-sensitive and keeping punctuation marks as part of the words does not improve correlation consistently. 2行目は、単語の一部として句読点を保持することによって、相関性が一貫して向上しないことを示す。
訳抜け防止モード: Row 2 はそれを示します WER の場合 -単語の一部として句読点を敏感に維持する 常に相関は改善しません
0.65
Although we believe that casing and punctuation errors harm subtitle quality, these errors might not have a significant impact on post-editing time because correcting them requires changing single characters only. キャスティングと句読点誤りは字幕品質に悪影響を及ぼすと信じているが,これらの誤りは編集後時間に大きく影響しないかもしれない。 0.65
Row 3 shows that extending the original WER definition by simply inserting end-ofline and end-of-block tokens into the text does not lead to improvements either. Row 3は、行末とブロック末のトークンをテキストに挿入するだけでオリジナルのWER定義を拡張することは、改善につながらないことを示している。 0.64
This can be explained by the fact that the original WER algorithm allows for substitution of break symbols with words. これは、オリジナルのwerアルゴリズムがブレークシンボルを単語で置換できるという事実によって説明できる。 0.73
Such substitutions have no meaningful interpretation. このような置換は意味のある解釈を持たない。 0.49
Also, it does not support shifts of break symbols, which leads to breaks at wrong positions being punished more than completely missing ones. また、ブレークシンボルのシフトをサポートしないため、完全に欠落しているもの以上の罰せられる間違った位置でのブレークにつながる。 0.65
Our proposed metric SubER achieves the overall best correlation of −0.692. 提案するメートル法suberは-0.692 の全体的最良相関を達成する。 0.46
We attribute this in part to a proper way of handling segmentation information: without it, as shown in the last row これは部分的にはセグメンテーション情報を扱う適切な方法に帰着する:最後の行に示すように、それなしでは 0.73
英語(論文から抽出)日本語訳スコア
Metric WER + case/punct + break tokens t-WER TER-br SubER (ours) + case/punct - break tokens メートル法 wer + case/punct + break tokens t-wer ter-br suber (ours) + case/punct - break tokens 0.72
Subtitler A Subtitler B Subtitler C Combined 字幕A字幕B字幕Cを併用 0.52
-0.731 -0.671 -0.725 -0.661 -0.573 -0.746 -0.670 -0.741 -0.731 -0.671 -0.725 -0.661 -0.573 -0.746 -0.670 -0.741 0.16
-0.494 -0.512 -0.494 -0.440 -0.489 -0.506 -0.507 -0.495 -0.494 -0.512 -0.494 -0.440 -0.489 -0.506 -0.507 -0.495 0.16
-0.499 -0.509 -0.512 -0.476 -0.434 -0.517 -0.500 -0.502 -0.499 -0.509 -0.512 -0.476 -0.434 -0.517 -0.500 -0.502 0.16
-0.676 -0.650 -0.678 -0.625 -0.562 -0.692 -0.645 -0.682 -0.676 -0.650 -0.678 -0.625 -0.562 -0.692 -0.645 -0.682 0.16
Table 1: Spearman’s correlation rs between automatic metric scores and post-editing productivity gains Pn on all 110 video segments for the English transcription task. 表1: Spearman氏の自動測定スコアと編集後の生産性の相関は、英語の転写タスクのために110の動画セグメントすべてでPnを得る。 0.71
The last column shows correlation to the productivity gain averaged across subtitlers ˆPn. 最後のコラムは、字幕毎の平均生産性向上率との相関を示す。 0.51
of Table 1, the correlation is lower. Unfortunately, for the same reasons as for the case of WER, we have to apply SubER to lower-cased text - as it is the default setting for the TER metric - to avoid a drop in correlation. 表1の相関は低い。 残念なことに、WERの場合と同じ理由で、相関の低下を避けるために、SubERをローケーステキスト(TERメトリックのデフォルト設定である)に適用する必要があります。 0.59
Correlations for t-WER (see Section 3.3) suggest that a word-level time-alignment using interpolation may result in misalignments which are punished too harsh in comparison to which mistimings are still tolerated by the post-editors. t-WERの相関関係(第3節3参照)は、補間を用いた単語レベルの時間調整が、編集者によってまだ許容されている誤認と比較して過酷な罰を受けるような誤調整をもたらす可能性があることを示唆している。 0.48
This supports our design choice of using subtitle-level timings for SubER. これはSubERのサブタイトルレベルのタイミングを使用する設計選択をサポートする。 0.62
Finally, we include TER-br from Karakanta et al It is a variant of TER + (2020a) in the results. 最後に、カラカンタ等から TER-br を含める。 TER + (2020a) の変種である。 0.63
break tokens where each real word is replaced by a mask token. 各リアルワードがマスクトークンに置き換えられるようなブレークトークン。 0.68
Given that the metric has no access to the actual words it achieves surprisingly high correlations. メトリクスが実際の単語にアクセスできないとすると、驚くほど高い相関が得られる。
訳抜け防止モード: 計量が実際の単語にアクセスできないことを考える 驚くほど高い相関が得られます
0.79
This shows that the subtitle formatting defined by the number of subtitle blocks, number of lines and number of words per line is in itself an important feature affecting the post-editing effort. これは、サブタイトルブロック数、行数、行数によって定義されるサブタイトルフォーマットが、それ自体が編集作業に影響を及ぼす重要な特徴であることを示している。 0.69
4.4.2 Post-Editing of Spanish Translation Baseline productivities Pbase of the translators D, E and F are 1.9, 1.8 and 1.1 subtitles per minute, respectively. 4.4.2 翻訳者D,E及びFのスペイン語翻訳ベースライン生産物の後編集 Pbase はそれぞれ1.9,1.8及び1.1字幕である。 0.70
On average, their productivity changes to 1.6, 2.0 and 1.1 when post-editing, meaning only subtitler B gains consistently. 平均すると、編集後の生産性は1.6、2.0、および1.1に変化し、字幕Bのみが一貫して上昇する。 0.51
Subtitler A is more productive on one of the videos, but slows down significantly for the other two. 字幕Aはビデオの1つで生産性が向上するが、他の2つでは大幅に低下する。 0.65
Table 2 shows performances of the different MT metrics. 表2は、異なるMTメトリクスのパフォーマンスを示しています。 0.62
In addition to post-edit effort, we show how well the metrics agree with human judgments of the usefulness and quality (see Section 4.3.2) for each of the 110 one-minute video segments. 編集後の取り組みに加えて、110の1分間のビデオセグメントごとに、測定基準が有用性と品質の人間の判断にどの程度合っているかを示す(セクション4.3.2)。 0.64
Overall, the correlation of productivity gains is much lower than for the transcription task. 全体として、生産性向上の相関は転写タスクよりもはるかに低い。 0.75
This can be explained by the fact that a translator has more freedom than a transcriber. これは翻訳者が翻訳者よりも自由であるという事実によって説明できる。 0.76
The translator’s word translator (複数形 translators) 0.68
choices are influenced by clues outside the scope of the translated text, like the style of language and references to other parts of the plot. 選択は翻訳されたテキストの範囲外の手掛かり(言語のスタイルやプロットの他の部分への参照など)に影響される。 0.80
Sometimes even research is required (e g bible verses for Midnight Mass). 時には研究が必要となることもある(例:真夜中のミサの聖書)。 0.57
Despite this, the subjectively perceived usefulness ˆUn of the automatic subtitles for post-editing can be predicted from automatic scores with a Spearman’s correlation of up to −0.591. それにもかかわらず、ポスト編集のための自動字幕の主観的な有用性は、スピアマンの相関が最大0.591である自動スコアから予測できる。 0.67
The quality judgement ˆQn shows even higher correlations of up to 0.659. クオリティ判定では、最大0.659の相関がさらに高い。 0.60
We compare the baseline MT metrics BLEU and TER when applied to the subtitle block-level vs. the sentence-level. 字幕ブロックレベルと文レベルに適用した場合のmtメトリクスbleuとterを比較した。 0.71
We note that BLEU on subtitlelevel is identical to t-BLEU (Cherry et al , 2021) for the considered case of template translation, where timestamps in hypothesis and reference are identical. サブタイトルレベルのBLEUはテンプレート翻訳の場合のt-BLEU(Cherry et al , 2021)と同一であり、仮説と参照のタイムスタンプは同一である。 0.70
Overall, BLEU and TER perform similarly. BLEUとTERも同様に動作する。 0.59
For both, evaluation on subtitle-level outperforms evaluation on sentence-level. いずれの場合も、字幕レベルの評価は文レベルの評価よりも優れる。 0.53
This is because the sentence-pairs extracted from the subtitle files preserve no formatting information, while using subtitle blocks as units is sensitive to how words of a sentence are distributed among subtitles after translation, especially in case of word re-ordering. これは、字幕ファイルから抽出された文ペアが、字幕ブロックを単位として使用する場合、特に単語の並べ替えの場合、翻訳後の字幕間で文の単語がどのように分配されるかに敏感であるためである。
訳抜け防止モード: これは、サブタイトルファイルから抽出されたペアがフォーマット情報を保存しないためである。 字幕ブロックを単位として使うのは 文の語は翻訳後に字幕に分散される 特に re - ordering の場合。
0.80
Extending BLEU and TER with break tokens to take subtitle segmentation into account shows only minor improvements for the subtitle-level, but significantly improves correlations for the sentencelevel. BLEUとTERをブレークトークンで拡張し、サブタイトルのセグメンテーションを考慮に入れれば、サブタイトルレベルの小さな改善しか示さないが、文レベルの相関は大幅に改善される。
訳抜け防止モード: 字幕分割を考慮したブレークトークンによるbleuとterの拡張 サブタイトル - レベルに対するマイナーな改善のみを示すが、 文レベルの相関を著しく改善する。
0.74
This could be attributed to the extended context after end-of-block tokens that is not available for scoring on subtitle-level. これは、サブタイトルレベルでスコアリングできないブロックの終端トークンの後に拡張されたコンテキストに起因する可能性がある。 0.55
Especially the way "BLEU + break tokens" punishes n-grams that are disrupted by an erroneous line break seems to lead to good results. 特に"BLEU + break tokens"は、誤った線切れによって破壊されるn-gramを罰する方法が良い結果をもたらすように思われる。 0.73
Our proposed metric SubER consistently outperforms all considered baseline metrics except for sentence-level BLEU with break tokens, which has a higher correlation for ˆQn and for the scores given by subtitler F. For this subtitler we also observe 提案した指標SubERは,文レベルのBLEUとブレークトークンを併用した場合を除き,ベースラインの指標を常に上回っている。
訳抜け防止モード: 提案するメトリックsuberは,文-レベルbleuとブレークトークンを除くすべてのベースラインメトリックを一貫して上回っています。 qn と字幕 f が与えるスコアとの間には高い相関関係がある。
0.65
英語(論文から抽出)日本語訳スコア
Metric Subtitler D Subtitler E メートル法 字幕d 字幕e 0.48
Subtitler F Pn Un Qn 字幕F Pn ウン Qn 0.52
Pn Un Qn Pn Pn ウン Qn Pn 0.46
Un Qn Combined ウン Qn 組み合わせ 0.58
ˆPn ˆUn ˆQn ※Pn 大雲 シュクン 0.29
Subtitle-level BLEU + break tokens TER + break tokens Sentence-level BLEU + break tokens TER + break tokens chrF TER-br SubER (ours) + case/punct - break tokens subtitle-level BLEU + break tokens TER + break tokens BLEU + break tokens TER + break tokens chrF TER-br SubER (ours) + case/punct - break tokens 0.49
0.03 0.04 0.03 0.00 0.03 0.04 0.03 0.00 0.23
-0.03 0.02 0.07 0.00 -0.09 0.03 -0.06 0.00 0.02 -0.03 0.02 0.07 0.00 -0.09 0.03 -0.06 0.00 0.02 0.19
0.34 0.35 -0.35 -0.36 0.34 0.35 -0.35 -0.36 0.20
0.31 0.35 -0.32 -0.36 0.26 -0.32 -0.38 -0.36 -0.34 0.31 0.35 -0.32 -0.36 0.26 -0.32 -0.38 -0.36 -0.34 0.17
0.52 0.53 -0.54 -0.54 0.52 0.53 -0.54 -0.54 0.20
0.51 0.55 -0.52 -0.55 0.52 -0.42 -0.57 -0.56 -0.54 0.51 0.55 -0.52 -0.55 0.52 -0.42 -0.57 -0.56 -0.54 0.17
0.22 0.22 -0.22 -0.23 0.22 0.22 -0.22 -0.23 0.20
0.21 0.25 -0.22 -0.25 0.21 -0.11 -0.27 -0.25 -0.24 0.21 0.25 -0.22 -0.25 0.21 -0.11 -0.27 -0.25 -0.24 0.35
0.21 0.24 -0.23 -0.24 0.21 0.24 -0.23 -0.24 0.20
0.13 0.22 -0.14 -0.19 0.10 -0.07 -0.28 -0.23 -0.25 0.13 0.22 -0.14 -0.19 0.10 -0.07 -0.28 -0.23 -0.25 0.35
0.39 0.43 -0.41 -0.41 0.39 0.43 -0.41 -0.41 0.20
0.33 0.43 -0.34 -0.38 0.28 -0.24 -0.47 -0.42 -0.44 0.33 0.43 -0.34 -0.38 0.28 -0.24 -0.47 -0.42 -0.44 0.17
0.07 0.12 -0.11 -0.10 0.07 0.12 -0.11 -0.10 0.39
0.04 0.16 -0.07 -0.13 0.04 -0.13 -0.16 -0.15 -0.11 0.04 0.16 -0.07 -0.13 0.04 -0.13 -0.16 -0.15 -0.11 0.17
0.58 0.58 -0.63 -0.61 0.58 0.58 -0.63 -0.61 0.20
0.60 0.63 -0.59 -0.58 0.64 -0.43 -0.61 -0.61 -0.65 0.60 0.63 -0.59 -0.58 0.64 -0.43 -0.61 -0.61 -0.65 0.17
0.49 0.46 -0.51 -0.50 0.49 0.46 -0.51 -0.50 0.20
0.51 0.55 -0.48 -0.45 0.51 -0.40 -0.52 -0.49 -0.55 0.51 0.55 -0.48 -0.45 0.51 -0.40 -0.52 -0.49 -0.55 0.17
0.172 0.210 -0.182 -0.200 0.172 0.210 -0.182 -0.200 0.20
0.126 0.240 -0.133 -0.218 0.104 -0.137 -0.274 -0.237 -0.197 0.126 0.240 -0.133 -0.218 0.104 -0.137 -0.274 -0.237 -0.197 0.35
0.541 0.554 -0.554 -0.558 0.541 0.554 -0.554 -0.558 0.20
0.494 0.583 -0.484 -0.515 0.483 -0.345 -0.591 -0.554 -0.572 0.494 0.583 -0.484 -0.515 0.483 -0.345 -0.591 -0.554 -0.572 0.17
0.595 0.595 -0.618 -0.606 0.595 0.595 -0.618 -0.606 0.20
0.573 0.659 -0.559 -0.574 0.556 -0.426 -0.651 -0.612 -0.645 0.573 0.659 -0.559 -0.574 0.556 -0.426 -0.651 -0.612 -0.645 0.17
Table 2: Spearman’s correlation rs between automatic metric scores and Pn, Un and Qn on all 110 video segments for the English→Spanish translation task. 表2: 英語とスペイン語の翻訳タスクにおいて、自動測度とPn、Un、Qnの相関関係が110の動画セグメントすべてに現れる。 0.78
Pn are segment-wise productivity gains from post-editing measured in subtitles per minute of work. pnは、分単位の字幕で測定された後編集による、セグメント単位での生産性向上である。 0.44
Un and Qn are segment-wise usefulness and quality scores, respectively, which the subtitlers assigned to the automatically generated subtitle segments. unとqnはそれぞれ、自動的に生成された字幕セグメントに割り当てられた字幕群と品質スコアである。 0.71
that calculating SubER without break tokens improves results. ブレークトークンのないsuberの計算は、結果を改善する。 0.51
In fact, subtitler F stated that moving around text is not a taxing procedure for him as he is very proficient with keyboard commands. 実際、サブタイトルFは、キーボードコマンドに精通しているため、テキストの移動は彼にとって課税手続きではないと述べた。 0.73
For the other subtitlers, break tokens as part of the metric are shown to have a clear positive effect. 他のサブタイトルでは、メートル法の一部としてのブレークトークンは明確なポジティブな効果を示す。 0.63
4.4.3 System-level Results For both transcription and translation we have a pair of systems which differ only in subtitle segmentation (systems 1 and 2). 4.4.3 書き起こしと翻訳の両方のシステムレベルの結果 サブタイトルセグメンテーション(システム1と2)のみが異なる一対のシステムがある。 0.84
We expect the system using a neural segmentation model to perform better overall. ニューラルセグメンテーションモデルを用いたシステム全体のパフォーマンス向上を期待する。 0.67
By definition, WER cannot distinguish between the transcription systems, scores for both are 40.6, 14.2 and 29.5 (%) for the three videos Master of None, Midnight Mass and Peaky Blinders, respectively. 定義上、WERは書き起こしシステムの区別ができず、それぞれ40.6、14.2、29.5(%)の3つのビデオ、Master of None、Midnight Mass、Peaky Blindersのスコアがある。 0.67
(High WER on Master of None is caused by colloquial and mumbling speech.) (能の師匠のWERは口語と口語が混じり合っている。) 0.43
SubER scores for system 1 are 46.4, 20.3 and 33.1, for system 2 they are 47.3, 22.1 and 34.7. システム1のサブアスコアは46.4, 20.3, 33.1であり、システム2のスコアは47.3, 22.1, 34.7である。 0.59
This means, for all videos SubER scores are able to reflect the better segmentation quality of system 1. つまり、すべてのビデオに対してSubERスコアは、システム1のセグメンテーション品質を反映することができる。 0.74
The same is true for translation: sentence-level BLEU scores are the same for systems 1 and 2, namely 18.9, 26.7 and 37.9 for the three videos. 文レベルのBLEUスコアはシステム1と2では同じであり、3つのビデオでは18.9、26.7、37.9である。 0.69
SubER scores for the system with neural segmentation are 65.1, 56.5 and 41.8, whereas the system without it gets worse scores of 67.4, 60.5 and 46.9. 神経分節を持つシステムのサブERスコアは65.1、56.5、46.9であり、それ以外は67.4、60.5、46.9である。 0.67
5 Release of Code 5 コードのリリース 0.79
toolkit2 to encourage its use in the research community as well as the media industry and to further promote research of automatic subtitling systems. toolkit2は、研究コミュニティやメディア業界での利用を促進し、自動サブタイトシステムの研究をさらに促進する。 0.74
In addition to SubER, the toolkit implements all baseline metrics used in Table 1 and 2, as well as t-BLEU (Cherry et al , 2021). SubERに加えて、このツールキットはテーブル1と2で使われるすべてのベースラインメトリクスとt-BLEU(Cherry et al , 2021)を実装している。 0.73
This includes implementations of hypothesis to reference alignment via the Levenshtein algorithm (Section 3.1) or via interpolated word timings (Section 3.3). これには、Levenshteinアルゴリズム(Section 3.1)または補間された単語タイミング(Section 3.3)による参照アライメントに対する仮説の実装が含まれる。 0.69
We use the JiWER3 Python package for word error rate calculations and SacreBLEU (Post, 2018) to compute BLEU, TER and chrF values. 単語エラー率計算には JiWER3 Python パッケージを使用し、BLEU, TER, chrF 値を計算するために SacreBLEU (Post, 2018) を用いる。 0.81
All metrics can be calculated directly from SRT input files. すべてのメトリクスはSRT入力ファイルから直接計算できる。 0.77
Support for other subtitle file formats will be added on demand. 他の字幕ファイルフォーマットのサポートはオンデマンドで追加される。 0.78
6 Conclusion In this work, we proposed SubER – a novel metric for evaluating quality of automatically generated intralingual and interlingual subtitles. 6 結論 本研究では,自動生成された言語内字幕と言語間字幕の品質を評価するための新しい指標であるSubERを提案する。 0.65
The metric is based on edit distance with shifts, but considers not only the automatically transcribed or translated text, but also subtitle timing and line segmentation information. このメトリクスは編集距離とシフトに基づいており、自動的に書き起こされたテキストや翻訳されたテキストだけでなく、字幕のタイミングや行分割情報も考慮している。 0.65
It can be used to compare an automatically generated subtitle file to a human-generated one even if the two files contain a different number of subtitles with different timings. 2つのファイルが異なるタイミングで異なる字幕数を含む場合でも、自動生成された字幕ファイルと人間生成の字幕ファイルを比較するのに使うことができる。 0.69
A thorough evaluation by professional subtitlers confirmed that SubER correlates well with their transcription post-editing effort and direct assessment scores of translations. プロの字幕刊行者による徹底的な評価は、SubERが翻訳後の作業と翻訳の直接評価スコアとよく相関していることを確認した。
訳抜け防止モード: 専門職の字幕による徹底的な評価は suberは翻訳後の編集作業や翻訳の直接評価スコアとよく相関する。
0.69
In most cases, SubER 多くの場合、SubER 0.66
We release the code to calculate the SubER metric as part of an open-source subtitle evaluation オープンソースサブタイトル評価の一環として,SubERメトリックを計算するためのコードをリリースする。 0.69
2https://github.com/ apptek/SubER 3https://github.com/ jitsi/jiwer 2https://github.com/ apptek/SubER 3https://github.com/ jitsi/jiwer 0.16
英語(論文から抽出)日本語訳スコア
shows highest correlation as compared to metrics that evaluate either the quality of the text alone, or use different approaches to integrate subtitle timing and segmentation information. テキストの品質を単独で評価するメトリクスよりも高い相関を示すか、サブタイトルのタイミングとセグメンテーション情報を統合するために異なるアプローチを使う。 0.77
The source code for SubER will be publicly released for the benefit of speech recognition and speech translation research communities, as well as the media and entertainment industry. suberのソースコードは、メディアやエンタテインメント業界と同様に、音声認識と音声翻訳の研究コミュニティの利益のために公開される予定だ。 0.77
References Aitor Álvarez, Marina Balenciaga, Arantza del Pozo, Haritz Arzelus, Anna Matamala, and Carlos-D. Aitor alvarez、Marina Balenciaga、Arantza del Pozo、Haritz Arzelus、Anna Matamala、Carlos-Dなどを参照。 0.80
Martínez-Hinarejos. martínez-hinarejos所属。 0.25
2016. Impact of automatic segmentation on the quality, productivity and selfreported post-editing effort of intralingual subtiIn Proceedings of the Tenth International tles. 2016. 第10回国際tles言語内サブティイン処理における自動分割が品質,生産性,自己報告後作業に及ぼす影響 0.60
Conference on Language Resources and Evaluation (LREC’16), pages 3049–3053, Portorož, Slovenia. 言語資源評価会議(LREC'16) 3049–3053, Portorož, Slovenia 0.58
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Aitor Alvarez, Carlos-D Martínez-Hinarejos, Haritz Arzelus, Marina Balenciaga, and Arantza del Pozo. Aitor Alvarez, Carlos-D Martínez-Hinarejos, Haritz Arzelus, Marina Balenciaga, Arantza del Pozo 0.45
2017. Improving the automatic segmentation of subtitles through conditional random field. 2017. 条件付きランダムフィールドによる字幕の自動セグメンテーションの改善 0.59
Speech Communication, 88:83–95. 音声通信、88:83-95。 0.53
Lindsay Bywood, Panayota Georgakopoulou, and Thierry Etchegoyhen. Lindsay Bywood, Panayota Georgakopoulou, Thierry Etchegoyhen 0.30
2017. Embracing the threat: machine translation as a solution for subtitling. 2017. 脅威を受け入れる: サブティットリングのソリューションとしての機械翻訳。 0.58
Perspectives, 25(3):492–508. 25(3):492-508。 0.73
Colin Cherry, Naveen Arivazhagan, Dirk Padfield, and Maxim Krikun. コリン・チェリー、ナヴィーン・アリバジャガン、ディルク・パドフィールド、マキシム・クリクン。 0.55
2021. Subtitle translation as markup translation. 2021. 字幕訳はマークアップ翻訳。 0.58
Proc. Interspeech 2021, pages 2237– 2241. Proc 2021年、2237-2241頁。 0.48
Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mauˇcec, Anja Turner, and Martin Volk. Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mau'cec, Anja Turner, Martin Volk
訳抜け防止モード: Thierry Etchegoyhen, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Mau'cec アンジャ・ターナーとマーティン・ボルク。
0.83
2014. Machine translation for subtitling: A large-scale evalIn Proceedings of the Ninth International uation. 2014. サブタイリングのための機械翻訳:第9次国際用法の大規模evalIn Proceedings 0.57
Conference on Language Resources and Evaluation (LREC’14), pages 46–53, Reykjavik, Iceland. アイスランド reykjavik, conference on language resources and evaluation (lrec’14) 46-53ページ。 0.71
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Alina Karakanta, Matteo Negri, and Marco Turchi. アリナ・カラカンタ、マテオ・ネグリ、マルコ・トゥルキ。 0.44
2020a. Is 42 the answer to everything in subtitlingoriented speech translation? 2020年。 42はサブタイリング指向音声翻訳のすべてに対する答えか? 0.78
In Proceedings of the 17th International Conference on Spoken Language Translation, pages 209–219, Online. 第17回音声言語翻訳国際会議の議事録209-219ページオンライン。 0.75
Association for Computational Linguistics. Alina Karakanta, Matteo Negri, and Marco Turchi. 計算言語学会会員。 アリナ・カラカンタ、マテオ・ネグリ、マルコ・トゥルキ。 0.48
2020c. Point break: Surfing heterogeneous data for subtitle segmentation. 2020年。 point break: サブタイトルセグメンテーションのための異種データをサーフィンする。 0.70
In CLiC-it. Maarit Koponen, Umut Sulubacak, Kaisa Vitikainen, and Jörg Tiedemann. 略称はCLiC。 Maarit Koponen、Umut Sulubacak、Kaisa Vitikainen、Jörg Tiedemann。 0.47
2020. MT for subtitling: User evaluation of post-editing productivity. 2020. mt for subtitling: 編集後の生産性のユーザ評価。 0.57
In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation, pages 115– 124, Lisboa, Portugal. 第22回ヨーロッパ機械翻訳協会年次総会の議事録では、ポルトガルのリスボアで115-114ページが記録されている。 0.62
European Association for Machine Translation. ヨーロッパ機械翻訳協会会員。 0.70
Evgeny Matusov, Gregor Leusch, Oliver Bender, and Hermann Ney. Evgeny Matusov, Gregor Leusch, Oliver Bender, Hermann Ney 0.34
2005. Evaluating machine translation output with automatic sentence segmentation. 2005. 自動文分割による機械翻訳出力の評価 0.61
In Proceedings of the Second International Workshop on Spoken Language Translation, Pittsburgh, Pennsylvania, USA. 第2回国際音声翻訳ワークショップ(the second international workshop on spoken language translation)は、アメリカ合衆国ペンシルベニア州ピッツバーグで開催された。 0.54
Evgeny Matusov, Patrick Wilken, and Yota Georgakopoulou. Evgeny Matusov、Patrick Wilken、Yota Georgakopoulou。 0.33
2019. Customizing neural machine In Proceedings of the translation for subtitling. 2019. 置換のための翻訳の手続きにおけるニューラルマシンのカスタマイズ。 0.54
Fourth Conference on Machine Translation (Volume 1: Research Papers), pages 82–93, Florence, Italy. 第4回機械翻訳会議(第1巻:研究論文)、82-93頁、フィレンツェ、イタリア。 0.71
Association for Computational Linguistics. Evgeny Matusov, Patrick Wilken, and Christian Herold. 計算言語学会会員。 Evgeny Matusov、Patrick Wilken、Christian Herold。 0.43
2020. Flexible customization of a single neural machine translation system with multi-dimensional metadata inputs. 2020. 多次元メタデータ入力を用いた単一ニューラルネットワーク翻訳システムの柔軟なカスタマイズ 0.60
In Proceedings of the 14th Conference of the Association for Machine Translation in the Americas (Volume 2: User Track), pages 204– 216, Virtual. アメリカ機械翻訳協会第14回会議(第2巻:ユーザートラック)の議事録において、ページ204-216はバーチャルである。 0.65
Association for Machine Translation in the Americas. アメリカ機械翻訳協会(Association for Machine Translation in the Americas)の略。 0.50
Kishore Papineni, Salim Roukos, Todd Ward, and WeiJing Zhu. Kishore Papineni、Salim Roukos、Todd Ward、WeiJing Zhu。 0.30
2002. Bleu: a method for automatic evalIn Proceedings of uation of machine translation. 2002. Bleu: 機械翻訳の用法のevalIn自動証明方法。 0.52
the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. 第40回計算言語学会年次総会, 311-318ページ, ペンシルバニア州フィラデルフィア 0.52
Association for Computational Linguistics. J. Pedersen. 計算言語学会会員。 J.ペデルセン。 0.61
2017. The FAR model: assessing quality in interlingual subtitling. 2017. FARモデル:言語間置換における品質の評価。 0.56
In Journal of Specialized Translation, volume 18, pages 210–229. Journal of Specialized Translation』第18巻、210-229頁。 0.76
Maja Popovi´c. ポポヴィ(Popovi)。 0.46
2015. chrF: character n-gram F-score for automatic MT evaluation. 2015. chrF: MT自動評価のための文字n-gram Fスコア。 0.57
In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 392–395, Lisbon, Portugal. 第10回統計機械翻訳研究会第392-395ページポルトガル・リスボンで開催。 0.57
Association for Computational Linguistics. Matt Post. 計算言語学会会員。 マット・ポスト 0.57
2018. A call for clarity in reporting BLEU scores. 2018. BLEUスコアの報告における明確性の要求。 0.56
In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186– 191, Brussels, Belgium. 第3回機械翻訳会議の議事録:研究論文、186-191ページ、ブリュッセル、ベルギー。 0.71
Association for Computational Linguistics. Alina Karakanta, Matteo Negri, and Marco Turchi. 計算言語学会会員。 アリナ・カラカンタ、マテオ・ネグリ、マルコ・トゥルキ。 0.48
2020b. MuST-cinema: a speech-to-subtitles corpus. 2020年。 MuST-cinema: 音声字幕コーパス。 0.71
In Proceedings of the 12th Language Resources and Evaluation Conference, pages 3727–3734, Marseille, France. 第12回言語資源評価会議の議事録、3727-3734ページ、マルセイユ。 0.57
European Language Resources Association. 欧州言語資源協会会員。 0.86
Ricardo Rei, Craig Stewart, Ana C Farinha, and Alon Lavie. リカルド・レイ、クレイグ・スチュワート、アナ・c・ファリンハ、アロン・ラヴィー。 0.43
2020. COMET: A neural framework for MT evaluation. 2020. COMET: MT評価のためのニューラルネットワークフレームワーク。 0.59
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2685–2702, Online. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録では、2685-2702ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 2685-2702頁。
0.68
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
P. Romero-Fresco and F. Pöchhacker. p. romero-frescoとf. pöchhacker。 0.44
2017. Quality assessment in interlingual live subtitling: The NTR In Linguistica Antverpiensia, New Series: model. 2017. 言語間ライブサブタイトリングにおける品質評価 : 言語学的antverpiensiaにおけるntr, new series: model 0.59
Themes in Translation Studies, volume 16, pages 149–167. 翻訳研究のテーマ、第16巻149-167頁。 0.72
P. Romero-Fresco and J.M. Pérez. P・ロメロ=フレスコとJ・M・ペレス。 0.34
2015. Accuracy rate in live subtitling: The NER model. 2015. ライブサブタイリングにおける精度:NERモデル 0.46
In Audiovisual Translation in a Global Context. グローバルな状況下での視聴覚翻訳です 0.65
Palgrave Studies in Translating and Interpreting. Palgrave Studies in Translating and Interpreting (英語) 0.81
R.B., Cintas J.D. (eds), Palgrave Macmillan, London. r.b.、cintas j.d. (eds)、palgrave macmillan、ロンドン。 0.60
Andrea Schioppa, David Vilar, Artem Sokolov, and Katja Filippova. Andrea Schioppa、David Vilar、Artem Sokolov、Katja Filippova。 0.35
2021. Controlling machine translation for multiple attributes with additive intervenIn Proceedings of the 2021 Conference on tions. 2021. 複数属性に対する機械翻訳の制御 0.34
Empirical Methods in Natural Language Processing, pages 6676–6696, Online and Punta Cana, Dominican Republic. 自然言語処理における実証的手法、6676-6696ページ、オンラインおよびドミニカ共和国パンタ・カナ。 0.63
Association for Computational Linguistics. Matthew Snover, Bonnie Dorr, Rich Schwartz, Linnea Micciulla, and John Makhoul. 計算言語学会会員。 マシュー・スノーバー、ボニー・ドル、リッチ・シュワルツ、リネア・ミクチュラ、ジョン・マホーン。 0.50
2006. A study of translation edit rate with targeted human annotation. 2006. 人為的アノテーションを用いた翻訳編集率の検討 0.54
In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, pages 223–231, Cambridge, Massachusetts, USA. The 7th Conference of the Association for Machine Translation in the Americas: Technical Papers, page 223–231, Cambridge, Massachusetts, USA (英語) 0.42
Association for Machine Translation in the Americas. アメリカ機械翻訳協会(Association for Machine Translation in the Americas)の略。 0.50
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. tianyi zhang氏、varsha kishore氏、felix wu氏、kilian q weinberger氏、yoav artzi氏。 0.52
2019. BERTScore: Evaluating text generation with BERT. 2019. BERTScore: BERTによるテキスト生成の評価。 0.63
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。