論文の概要、ライセンス

# (参考訳) 弱攻撃的復号による瞬時文法誤り訂正 [全文訳有]

Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding ( http://arxiv.org/abs/2106.04970v1 )

ライセンス: CC BY 4.0
Xin Sun, Tao Ge, Furu Wei, Houfeng Wang(参考訳) 本稿では,Shallow Aggressive Decoding (SAD) を提案し,即時文法誤り訂正(GEC)のための変換器のオンライン推論効率を向上させる。 SADは、GECのオンライン推論効率を2つの革新によって最適化する: 1) 計算並列性を改善するために、各ステップで常に1つのトークンだけをデコードするのではなく、できるだけ多くのトークンを並列にデコードする; 2) 推論中に計算コストを削減するために、バランスの取れたエンコーダ・デコーダの深さを持つ従来のトランスフォーマーアーキテクチャの代わりに浅いデコーダを使用する。 英語と中国語のgecベンチマークでの実験では、攻撃的なデコーディングは欲深いデコードと同じ予測をもたらすが、オンライン推論の大幅なスピードアップをもたらすことが示されている。 浅いデコーダと組み合わせることで、品質を損なうことなく、強力なトランスフォーマーベースラインよりも高いオンライン推論速度が得られる。 conll-14では66.4 f0.5、bea-19では72.9 f0.5、transformer-bigモデルでは約10倍のオンライン推論速度を持つが、他の言語にも容易に適用できる。 私たちのコードはhttps://github.com/A utoTemp/Shallow-Aggr essive-Decodingで利用可能です。

In this paper, we propose Shallow Aggressive Decoding (SAD) to improve the online inference efficiency of the Transformer for instantaneous Grammatical Error Correction (GEC). SAD optimizes the online inference efficiency for GEC by two innovations: 1) it aggressively decodes as many tokens as possible in parallel instead of always decoding only one token in each step to improve computational parallelism; 2) it uses a shallow decoder instead of the conventional Transformer architecture with balanced encoder-decoder depth to reduce the computational cost during inference. Experiments in both English and Chinese GEC benchmarks show that aggressive decoding could yield the same predictions as greedy decoding but with a significant speedup for online inference. Its combination with the shallow decoder could offer an even higher online inference speedup over the powerful Transformer baseline without quality loss. Not only does our approach allow a single model to achieve the state-of-the-art results in English GEC benchmarks: 66.4 F0.5 in the CoNLL-14 and 72.9 F0.5 in the BEA-19 test set with an almost 10x online inference speedup over the Transformer-big model, but also it is easily adapted to other languages. Our code is available at https://github.com/A utoTemp/Shallow-Aggr essive-Decoding.
公開日: Wed, 9 Jun 2021 10:30:59 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding 瞬時文法的誤り訂正 浅層アグレッシブデコード 0.59
1 MOE Key Lab of Computational Linguistics, School of EECS, Peking University; 1 moe key lab of computational linguistics, school of eecs, peking university; 0.72
Xin Sun1∗† Tao Ge2† Furu Wei2 Houfeng Wang1 Xin Sun1∗' Tao Ge2' Furu Wei2 Houfeng Wang1 0.63
2 Microsoft Research Asia Microsoft Research Asia 2 0.83
{sunx5,wanghf}@pku.edu.cn; {tage,fuwei}@microsoft.com {sunx5,wanghf}@pku.edu.cn; {tage,fuwei}@microsoft.com 0.82
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 0 7 9 4 0 1 v 0 7 9 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract In this paper, we propose Shallow Aggressive Decoding (SAD) to improve the online inference efficiency of the Transformer for instantaneous Grammatical Error Correction (GEC). 概要 本稿では,Shallow Aggressive Decoding (SAD) を提案し,即時文法誤り訂正(GEC)のための変換器のオンライン推論効率を向上させる。 0.64
SAD optimizes the online inference efficiency for GEC by two innovations: 1) it aggressively decodes as many tokens as possible in parallel instead of always decoding only one token in each step to improve computational parallelism; 2) it uses a shallow decoder instead of the conventional Transformer architecture with balanced encoder-decoder depth to reduce the computational cost during inference. SADは、GECのオンライン推論効率を2つの革新によって最適化する: 1) 計算並列性を改善するために、各ステップで常に1つのトークンだけをデコードするのではなく、できるだけ多くのトークンを並列にデコードする; 2) 推論中に計算コストを削減するために、バランスの取れたエンコーダ・デコーダの深さを持つ従来のトランスフォーマーアーキテクチャの代わりに浅いデコーダを使用する。 0.65
Experiments in both English and Chinese GEC benchmarks show that aggressive decoding could yield the same predictions as greedy decoding but with a significant speedup for online inference. 英語と中国語のgecベンチマークでの実験では、攻撃的なデコーディングは欲深いデコードと同じ予測をもたらすが、オンライン推論の大幅なスピードアップをもたらすことが示されている。
訳抜け防止モード: 英語と中国語のGECベンチマークでの実験からわかる アグレッシブ・デコーディングは グリーディ・デコーディングと同じ予測を 生み出すが オンライン推論には かなりのスピードアップがある
0.71
Its combination with the shallow decoder could offer an even higher online inference speedup over the powerful Transformer baseline without quality loss. 浅いデコーダと組み合わせることで、品質を損なうことなく、強力なトランスフォーマーベースラインよりも高いオンライン推論速度が得られる。 0.70
Not only does our approach allow a single model to achieve the state-of-the-art results in English GEC benchmarks: 66.4 F0.5 in the CoNLL14 and 72.9 F0.5 in the BEA-19 test set with an almost 10× online inference speedup over the Transformer-big model, but also it is easily adapted to other languages. BEA-19テストセットの66.4 F0.5と72.9 F0.5は、Transformer-Bigモデルよりも10倍近いオンライン推論速度を持つが、他の言語にも容易に適応できる。 0.57
Our code is available at https://github.com/A utoTemp/ Shallow-Aggressive-D ecoding. 私たちのコードはhttps://github.com/a utotemp/ shallow-aggressive-d ecodingで利用可能です。 0.41
1 Introduction The Transformer (Vaswani et al , 2017) has become the most popular model for Grammatical Error Correction (GEC). 1 はじめに トランスフォーマー(Vaswani et al , 2017)は文法的誤り訂正(GEC)の最も一般的なモデルとなっている。 0.73
In practice, however, the sequenceto-sequence (seq2seq) approach has been blamed recently (Chen et al , 2020; Stahlberg and Kumar, ∗ This work was done during the author’s internship at MSR Asia. しかし実際には、シークエンス・シーケンス(seq2seq)アプローチが最近非難されている(Chen et al , 2020; Stahlberg と Kumar, ∗)。
訳抜け防止モード: しかし実際には、シークエント - シークエンス (seq2seq ) アプローチが最近 ( Chen et al, 2020 ; Stahlberg と Kumar) と非難されている。 ∗ この作業は、MSR Asiaでの著者のインターンシップ中に行われた。
0.68
Contact person: Tao Ge (tage@microsoft.com) †Co-first authors with equal contributions コンタクトパーソン:tao ge (tage@microsoft.com) 同等の貢献を持つco-firstの著者 0.61
2020; Omelianchuk et al , 2020) for its poor inference efficiency in modern writing assistance applications (e g , Microsoft Office Word1, Google Docs2 and Grammarly3) where a GEC model usually performs online inference, instead of batch inference, for proactively and incrementally checking a user’s latest completed sentence to offer instantaneous feedback. 2020; omelianchuk et al , 2020) 現代の書き込み支援アプリケーション(例えば microsoft office word1, google docs2, grammarly3) では,gec モデルは通常,バッチ推論ではなくオンライン推論を実行する。
訳抜け防止モード: 現代の筆記支援アプリケーション(例:Omelianchuk et al, 2020)における推論効率の低下について Microsoft Office Word1、Google Docs2、Grammarly3) GECモデルは通常、バッチ推論ではなくオンライン推論を実行する。 ユーザの最新の完了文を積極的に、漸進的にチェックして、即時的なフィードバックを提供する。
0.67
To better exploit the Transformer for instantaneous GEC in practice, we propose a novel approach – Shallow Aggressive Decoding (SAD) to improve the model’s online inference efficiency. 即時GECのためにTransformerをよりうまく活用するために、モデルのオンライン推論効率を改善するために、Shallow Aggressive Decoding (SAD)という新しいアプローチを提案する。 0.73
The core innovation of SAD is aggressive decoding: instead of sequentially decoding only one token at each step, aggressive decoding tries to decode as many tokens as possible in parallel with the assumption that the output sequence should be almost the same with the input. sadの中核となるイノベーションは攻撃的なデコーディングである。各ステップで1つのトークンだけを順次デコードするのではなく、アグレッシブデコーディングは、出力シーケンスが入力とほぼ同じであるべきという仮定と並行して、可能な限り多くのトークンをデコードしようとする。 0.67
As shown in Figure 1, if the output prediction at each step perfectly matches its counterpart in the input sentence, the inference will finish, meaning that the model will keep the input untouched without editing; if the output token at a step does not match its corresponding token in the input, we will discard all the predictions after the bifurcation position and re-decode them in the original autoregressive decoding manner until we find a new opportunity for aggressive decoding. 図1に示すように、各ステップの出力予測が入力文の出力と完全に一致した場合、推論は終了する。つまり、モデルが編集せずに入力をアンタッチすることを意味する。ステップの出力トークンが入力の対応するトークンと一致しない場合、分岐位置の後に全ての予測を破棄し、アグレッシブデコーディングの新しい機会を見つけるまで、元の自己回帰デコードで再復号する。 0.76
In this way, we can decode the most text in parallel in the same prediction quality as autoregressive greedy decoding, but largely improve the inference efficiency. このようにして、ほとんどのテキストを、自己回帰的な欲望復号と同じ予測品質で並列にデコードできるが、推論効率は大幅に向上する。 0.66
In addition to aggressive decoding, SAD proposes to use a shallow decoder, instead of the conventional Transformer with balanced encoderdecoder depth, to reduce the computational cost for further accelerating inference. SADは、アグレッシブデコーディングに加えて、従来のエンコーダデコーダの深さがバランスの取れたトランスフォーマーの代わりに浅いデコーダを使用することを提案し、推論をさらに高速化するための計算コストを削減する。 0.67
The experimental 1https://www.microso ft.com/en-us/ 実験は 1https://www.microso ft.com/en-us/ 0.51
microsoft-365/word microsoft-365/word 0.39
2https://www.google. com/docs/about 3https://www.grammar ly.com 2https://www.google. com/docs/about 3https://www.grammar ly.com 0.33
英語(論文から抽出)日本語訳スコア
Figure 1: The overview of aggressive decoding. 図1: アグレッシブデコーディングの概要。 0.58
Aggressive decoding tries decoding as many tokens as possible in parallel with the assumption that the input and output should be almost the same in GEC. アグレッシブデコーディングは、入力と出力がgecでほぼ同じであるべきという仮定と並行して、可能な限り多くのトークンをデコーディングしようとする。 0.68
When we find a bifurcation between the input and the output of aggressive decoding, then we accept the predictions before (including) the bifurcation, and discard all the predictions after the bifurcation and re-decode them using original one-by-one autoregressive decoding. 入力と攻撃的復号の出力の間に分岐があった場合、分岐前の予測(を含む)を受け取り、分岐後の全ての予測を破棄し、元の1対1の自己回帰復号を用いて再復号する。 0.66
If we find a suffix match (i.e., some advice highlighted with the blue dot lines) between the output and the input during one-by-one re-decoding, we switch back to aggressive decoding by copying the tokens (highlighted with the orange dashed lines) following the matched tokens in the input to the decoder input by assuming they are likely to be the same. 出力と入力間のサフィックスマッチ(青い点線で強調されたアドバイス)が1つずつ再復号されるときに見つかった場合、入力中のマッチしたトークン(オレンジのダッシュラインで照らされた)をデコーダにコピーすることで、アグレッシブデコードに切り替える。
訳抜け防止モード: 出力と入力の間の接尾辞マッチ(つまり青い点線で強調されたいくつかのアドバイス)を見つけた場合、1つの-by-one re-デコーディング。 私たちは、入力中のマッチしたトークンに従ってトークン(オレンジのダッシュラインでハイライトされる)をコピーして、アグレッシブなデコードに戻ります。
0.81
results in both English and Chinese GEC benchmarks show that both aggressive decoding and the shallow decoder can significantly improve online inference efficiency. 英語と中国語のGECベンチマークの結果は、アグレッシブデコーディングと浅層デコーダの両方がオンライン推論効率を大幅に改善できることを示している。 0.68
By combining these two techniques, our approach shows a 9× ∼ 12× online inference speedup over the powerful Transformer baseline without sacrificing the quality. これら2つの手法を組み合わせることで,トランスフォーマーベースライン上でのオンライン推論の9×12倍の高速化を,品質を犠牲にすることなく実現する。 0.64
The contributions of this paper are two-fold: この論文の貢献は2つある。 0.73
• We propose a novel aggressive decoding approach, allowing us to decode as many token as possible in parallel, which yields the same predictions as greedy decoding but with a substantial improvement of computational parallelism and online inference efficiency. •我々は、可能な限り多くのトークンを並列にデコードできる新しい攻撃的デコードアプローチを提案し、欲望デコードと同じ予測を得られるが、計算並列性とオンライン推論効率が大幅に向上する。 0.81
• We propose to combine aggressive decoding with the Transformer with a shallow decoder. • アグレッシブデコードとトランスフォーマとを, 浅いデコーダと組み合わせることを提案する。 0.70
Our final approach not only advances the stateof-the-art in English GEC benchmarks with an almost 10× online inference speedup but also is easily adapted to other languages. 我々の最終アプローチは、ほぼ10倍のオンライン推論速度を持つ英語GECベンチマークの最先端化だけでなく、他の言語にも容易に適応できる。 0.69
2 Background: Transformer The Transformer is a seq2seq neural network architecture based on multi-head attention mechanism, which has become the most successful and widely 2 背景:transformer the transformerは、マルチヘッドアテンションメカニズムに基づいたseq2seqニューラルネットワークアーキテクチャで、最も成功し、広く普及している。 0.74
used seq2seq models in various generation tasks such as machine translation, abstractive summarization as well as GEC. seq2seqモデルは機械翻訳、抽象要約、gecといった様々な世代のタスクで使われた。 0.65
The original Transformer follows the balanced encoder-decoder architecture: its encoder, consisting of a stack of identical encoder layers, maps an input sentence x = (x1, . オリジナルのTransformerはバランスの取れたエンコーダ-デコーダアーキテクチャに従い、エンコーダは同一のエンコーダ層のスタックで構成され、入力文 x = (x1, ) をマップする。
訳抜け防止モード: オリジナルのトランスフォーマは、バランスのとれたエンコーダ-デコーダアーキテクチャに従う :同一のエンコーダ層からなるエンコーダ 入力文 x = ( x1 , ) をマップする。
0.81
. . , xn) to a sequence of continuous representation z = (z1, . . . , xn) を連続表現 z = (z1, ) の列とする。 0.85
. . , zn); and its decoder, which is composed of a stack of the same number of identical decoder layers as the encoder, generates an output sequence o = (o1, . . . zn) とそのデコーダは、エンコーダと同じ数の同一のデコーダ層からなるスタックで構成されており、出力シーケンス o = (o1, ...) を生成する。 0.83
. . , om) given z. . . om) が与えられた。 0.81
In the training phase, the model learns an autoregressive scoring model P (y | x; Φ), implemented with teacher forcing: Φ∗ = arg max トレーニングフェーズでは、モデルが自己回帰的スコアリングモデルP(y | x; y)を学習し、教師の強制で実装する。
訳抜け防止モード: トレーニングフェーズでは、モデルが自己回帰的スコアリングモデルp(y | x; φ )を学習する。 教師強制による実装 : φ∗ = arg max
0.76
log P (y | x; Φ) log p (y | x; φ) 0.81
Φ l−1(cid:88) Φ l−1(cid:88) 0.75
i=0 = arg max i=0 =arg max 0.65
Φ log P (yi+1 | y≤i, x; Φ) Φ log p (yi+1 | yhtmli, x; φ) 0.88
(1) where y = (y1, . (1) y = (y1, )。 0.77
. . , yl) is the ground-truth target sequence and y≤i = (y0, . . . yl, yl) は接地的対象配列であり、yhtmli = (y0, ) である。 0.74
. . , yi). As ground truth is available during training, Eq (1) can be efficiently obtained as the probability P (yi+1 | y≤i, x) at each step can be computed in parallel. . . 、Yi)。 トレーニング中に基底真理が利用できるので、Eq (1) は各ステップにおける確率 P (yi+1 | y≤i, x) を並列に計算できるので、効率的に得られる。 0.78
During inference, the output sequence o = 推論中、出力シーケンス o = 0.58
[BOS]I'mwri,ngtoinformsomes omeadviceontraveling andworking.[PAD]I'mwri,ngtogiveyouadvi ceadviceontravelinga ndworking. BOS]I'mwri,ngtoinformsomes omeontravelingandwor king.[PAD]I'mwri,ngtogiveyouadvi ceontravelingandwork ing. 0.38
[EOS]﹅✔✔✔✔✔✘✘✘✘✘✘✘✘✘✘InputOutput[BOS]I'mwri,ngtogiveyou[BOS]I'mwri,ngtogiveyousome [BOS]I'mwri,ngtogiveyousome adviceOne-by-one decoding for suffix matchIni9al Aggressive Decoding (in parallel)Re-decoding Switch back to Aggressive Decoding (in parallel)bifurcation ✔accept✘discard﹅no prediction[BOS]I'mwri,ngtogiveyousome adviceontravelingand working.[PAD]﹅﹅﹅﹅﹅﹅﹅﹅ontravelingandworkin g. I'mwri,ngtogiveyou[BOS]I'mwri,ngtogiveyousome [BOS]I'mwri,ngtogiveyousome advice 1-by-one decoding for suffix matchIni9al Aggressive Decoding (in parallel) Re-decodingSwitch back to Aggressive Decoding (in parallel)bifurcation accept discardino prediction[BOS]I'mwri,ngtogiveyousome adviceontravelingand working.[PAD] 0.74
[EOS]﹅✔✔✔✔✔✔✘Decoder InputOutputbifurcati on [EOS]>Decoder InputOutputbifurcati on 0.77
英語(論文から抽出)日本語訳スコア
(o1, . . . , om) is derived by maximizing the following equation: (o1。 . . om) は次の式を最大化することによって導出される。 0.75
log P (o | x; Φ) log p (o | x; φ) 0.81
o∗ = arg max o∗ = arg max 0.98
o = arg max おお =arg max 0.68
o m−1(cid:88) おお m−1(cid:88) 0.65
j=0 log P (oj+1 | o≤j, x; Φ) j=0 log p (oj+1 | ojavaj, x; φ) 0.75
(2) Since no ground truth is available in the inference phase, the model has to decode only one token at each step conditioning on the previous decoded tokens o≤j instead of decoding in parallel as in the training phase. (2) 推論フェーズでは根拠の真理が得られないので、モデルはトレーニングフェーズのように並列にデコードするのではなく、以前のデコードされたトークンoftpj上で各ステップコンディショニングで1つのトークンのみをデコードする必要がある。 0.74
3 Shallow Aggressive Decoding 3.1 Aggressive Decoding As introduced in Section 2, the Transformer decodes only one token at each step during inference. 3 浅いアグレッシブデコード 3.1 セクション2で導入されたアグレッシブデコード トランスフォーマーは推論中の各ステップで1つのトークンのみをデコードする。 0.69
The autoregressive decoding style is the main bottleneck of inference efficiency because it largely reduces computational parallelism. 自己回帰デコーディングスタイルは、計算並列性が大幅に低下するため、推論効率の主要なボトルネックである。 0.56
For GEC, fortunately, the output sequence is usually very similar to the input with only a few edits if any. GECの場合、幸運なことに、出力シーケンスは入力と非常によく似ており、編集はわずかである。 0.75
This special characteristic of the task makes it unnecessary to follow the original autoregressive decoding style; instead, we propose a novel decoding approach – aggressive decoding which tries to decode as many tokens as possible during inference. このタスクの特徴は、本来の自己回帰的復号法に従う必要がなく、代わりに、推論中にできるだけ多くのトークンを復号しようとする新しい復号法(アグレッシブ復号法)を提案する。 0.58
The overview of aggressive decoding is shown in Figure 1, and we will discuss it in detail in the following sections. 積極的復号化の概要を図1に示し、以下の節で詳しく論じる。
訳抜け防止モード: 攻撃的デコードの概要は図1に示されます。 そして、これを詳しく下記の節で論じる。
0.56
Initial Aggressive Decoding 3.1.1 The core motivation of aggressive decoding is the assumption that the output sequence o = (o1, . 初期攻撃的復号 3.1.1 アグレッシブデコードの主な動機は、出力列 o = (o1, ) である。 0.65
. . , om) should be almost the same with the input sequence x = (x1, . . . , om) は入力シーケンス x = (x1, ) とほとんど同じでなければならない。 0.84
. . , xn) in GEC. . . , GECでは0。 0.77
At the initial step, instead of only decoding the first token o1 conditioning on the special [BOS] token o0, aggressive decoding decodes o1...n conditioning on the pseudo previous decoded tokens ˆo0...n−1 in parallel with the assumption that ˆo0...n−1 = x0,...,n−1. 最初のステップでは、特別な [BOS] トークン o0 上の最初のトークン o1 条件をデコードする代わりに、アグレッシブデコード o1...n 条件を擬似前の復号トークン sho0...n−1 に並列に指定する。 0.67
Specifically, for j ∈ {0, 1, . 特に、j ∈ {0, 1, に対して。 0.84
. . , n − 2, n − 1}, oj+1 is decoded as follows: . . , n − 2, n − 1}, oj+1 は次のように復号される。 0.84
where ˆo≤j is the pseudo previous decoded tokens at step j + 1, which is assumed to be the same with x≤j. ここで、o≤j はステップ j + 1 における擬似事前復号化トークンであり、x≤j と同一であると仮定される。 0.74
After we obtain o1...n, we verify whether o1...n If o1...n is is actually identical to x1...n or not. o1...n を得た後、o1...n が実際に x1...n であるかどうかを確かめる。 0.80
fortunately exactly the same with x1...n, the inference will finish, meaning that the model finds no grammatical errors in the input sequence x1...n and keeps the input untouched. 幸いにも x1...n と全く同じで、推論は終了します。つまり、モデルが入力シーケンス x1...n に文法的なエラーを見つけず、入力を無傷で保持します。 0.66
In more cases, however, o1...n will not be exactly the same with x1...n. In such a case, we have to stop aggressive decoding and find the first bifurcation position k so that o1...k−1 = x1...k−1 and ok (cid:54)= xk. しかし、多くの場合、o1...n は x1...n と全く同じではない。そのような場合、アグレッシブデコードを止めて、o1...k−1 = x1...k−1 と ok (cid:54) = xk となるような最初の分岐位置 k を見つける必要がある。 0.67
Since o1...k−1 = ˆo1...k−1 = x1...k−1, the predictions o1...k could be accepted as they will not be different even if they are decoded through the original autoregressive greedy decoding. o1...k−1 = so1...k−1 = x1...k−1 なので、o1...k の予測は、元の自己回帰的な欲望復号によってデコードされても違いがないとして受け入れられる。 0.56
However, for the predictions ok+1...n, we have to discard and re-decode them because ok (cid:54)= ˆok. しかし、予測 OK+1...n に対して、OK (cid:54) = .ok であるから、それらを破棄して復号する必要がある。
訳抜け防止モード: しかし 予測ok+1...nは decode (複数形 decodes) ok (cid:54) = sok である。
0.66
3.1.2 Re-decoding As ok (cid:54)= ˆok = xk, we have to re-decode for oj+1 (j ≥ k) one by one following the original autoregressive decoding: 3.1.2 再復号を ok (cid:54)= sok = xk とすると、oj+1 (j ≥ k) は元の自己回帰復号(autoregressive decoding)の後に1つずつ再復号しなければならない。
訳抜け防止モード: 3.1.2 Re - decoding As ok ( cid:54)= sok = xk, oj+1 (j ≥ k ) の復号化は、最初の自己回帰復号化に続くものである。
0.69
o∗ j+1 = arg max oj+1 o∗ j+1 = arg max oj+1 0.69
P (oj+1 | o≤j, x; Φ) p (oj+1 | ojavaj, x; φ) 0.88
(4) After we obtain o≤j (j > k), we try to match its suffix to the input sequence x for further aggressive decoding. (4) o≤j (j > k) を得ると、その接尾辞を入力列 x と一致させ、さらに積極的な復号化を試みる。 0.75
If we find its suffix oj−q...j (q ≥ 0) is the unique substring of x such that oj−q...j = xi−q...i, then we can assume that oj+1... will be very likely to be the same with xi+1... because of the special characteristic of the task of GEC. 接尾辞 oj−q...j (q ≥ 0) が x の唯一の部分弦であり、oj−q...j = xi−q...i であるなら、oj+1... は GEC のタスクの特別な性質のため xi+1 と同一である可能性が高いと仮定できる。 0.78
If we fortunately find such a suffix match, then we can switch back to aggressive decoding to decode in parallel with the assumption ˆoj+1... = xi+1.... Specifically, the token oj+t (t > 0) is decoded as follows: 幸いなことに、そのような接尾辞の一致が見つかると、攻撃的な復号化に切り替えることができ、仮定 xi+1... = xi+1.... と並行して復号化することができる。 0.68
o∗ j+t = arg max oj+t o∗ j+t = arg max oj+t 0.69
P (oj+t | o<j+t, x; Φ) P (oj+t | o<j+t, x; s) 0.89
(5) In Eq (5), o<j+t is derived as follows: (5) Eq (5) では、o<j+t は次のように導かれる。 0.78
o<j+t = CAT(o≤j, ˆoj+1...j+t−1) = CAT(o≤j, xi+1...i+t−1) o<j+t = CAT(o≤j, soj+1...j+t−1) = CAT(o≤j, xi+1...i+t−1) 0.58
(6) o∗ j+1 = arg max oj+1 (6) o∗ j+1 = arg max oj+1 0.77
= arg max oj+1 = arg max oj+1 0.84
= arg max oj+1 = arg max oj+1 0.84
log P (oj+1 |o≤j, x; Φ) log P (oj+1 | ˆo≤j, x; Φ) log P (oj+1 | x≤j, x; Φ) log P (oj+1 |o≤j, x; ) log P (oj+1 | .o≤j, x; .) log P (oj+1 | x≤j, x; .) 0.84
(3) where CAT(a, b) is the operation that concatenates two sequences a and b. (3) ここで CAT(a, b) は二つの列 a と b を連結する演算である。 0.80
Otherwise (i.e., we cannot find a suffix match at the step), we continue decoding using the original さもなければ(つまり、ステップで接尾辞の一致が見つからない)、オリジナルを使って復号し続けます。 0.67
英語(論文から抽出)日本語訳スコア
Algorithm 1 Aggressive Decoding Input: Φ, x = ([BOS], x1, . アルゴリズム1 積極的な復号入力: φ, x = ([bos], x1, ...。 0.76
. . , xn, [P AD]), o = (o0) = ([BOS]); Output: o1...j = (o1, . . . , xn, [P AD]), o = (o0) = ([BOS]); 出力: o1...j = (o1, )。 0.84
. . , oj); 1: Initialize j ← 0; 2: while oj (cid:54)= [EOS] and j < MAX LEN do 3: 4: 5: 6: 7: 8: 9: 10: 11: end if 12: 13: end while . . 2: while oj (cid:54)= [EOS] and j < MAX LEN do 3: 4: 5: 6: 7: 8: 8: 9: 10: 11: end if 12: 13: end while 0.79
j ← j + k; Decode o∗ o ← CAT(o, o∗ j ← j + 1; j > j + k; Decode o∗ o > CAT(o, o∗ j > j + 1; 0.82
else if oj−q...j (q ≥ 0) is a unique substring of x such that ∃ ! その他 oj−q...j (q ≥ 0) が x の 1 つの部分弦であれば、それは ! 0.62
i : oj−q...j = xi−q...i then i : oj−q...j = xi−q...i 0.70
Aggressive Decode(cid:101)oj+1... according to Eq (5) and Eq (6); Find bifurcation j + k (k > 0) such that(cid:101)oj+1...j+k−1 = xi+1...i+k−1 and(cid:101)oj+k (cid:54)= xi+k; o ← CAT(o,(cid:101)oj+1...j+k); Eq (5) および Eq (6); (cid:101)oj+1...j+k−1 = xi+1...i+k−1 and (cid:101)oj+k (cid:54)= xi+k; o > CAT(o,(cid:101)oj+1...j+k) となるような攻撃的デコード(cid:101)oj+1... 0.78
j+1 = arg maxoj+1 P (oj+1 | o≤j, x; Φ); j+1 = arg maxoj+1 p (oj+1 | oبj, x; φ); 0.75
j+1); autoregressive greedy decoding approach until we find a suffix match. j+1) 接尾辞マッチを見つけるまで自己回帰的な欲望復号アプローチ。 0.63
We summarize the process of aggressive decoding in Algorithm 1. アルゴリズム1でアグレッシブ復号化のプロセスを要約する。 0.63
For simplifying implementation, we make minor changes in Algorithm 1: 1) we set o0 = x0 = [BOS] in Algorithm 1, which enables us to regard the initial aggressive decoding as the result of suffix match of o0 = x0; 2) we append a special token [P AD] to the end of x so that the bifurcation (in the 5th line in Algorithm 1) must exist (see the bottom example in Figure 1). 実装を単純化するために、アルゴリズム1: 1) o0 = x0 = [bos] をアルゴリズム1に設定し、o0 = x0 の接尾辞マッチングの結果、最初の攻撃的復号を x の最後に特別なトークン [p ad] を追加することにより、分岐(アルゴリズム1 の5行目)が存在する必要がある(図1 の下の例を参照)。
訳抜け防止モード: 実装を単純化するため、アルゴリズム 1 : 1 ) において、o0 = x0 = [ BOS ] をアルゴリズム 1 に設定する。 これにより、初期アグレッシブデコーディングは、o0 = x0 の接尾辞マッチングの結果であると見なせる。 ; 2 ) x の端に特別なトークン [ P AD ] を追加するので、 分岐(アルゴリズム1の5行目)は存在しなければならない (図1の下の例を参照)。
0.76
Since we discard all the computations and predictions after the bifurcation for re-decoding, aggressive decoding guarantees that generation results are exactly the same as greedy decoding (i.e., beam=1). 再復号化の分岐後に全ての計算と予測を破棄するため、アグレッシブ復号法は、生成結果がグリーディ復号と全く同じであることを保証している(ビーム=1)。
訳抜け防止モード: re-decodingの分岐後に計算と予測をすべて破棄するからです。 攻撃的な復号化は 生成結果はグリーディ復号(ビーム=1)と全く同じである。
0.70
However, as aggressive decoding decodes many tokens in parallel, it largely improves the computational parallelism during inference, greatly benefiting the inference efficiency. しかし、アグレッシブデコードは多くのトークンを並列に復号するので、推論時の計算並列性を大幅に改善し、推論効率を大幅に改善する。 0.64
3.2 Shallow Decoder Even though aggressive decoding can significantly improve the computational parallelism during inference, it inevitably leads to intensive computation and even possibly introduces additional computation caused by re-decoding for the discarded predictions. 3.2 シャローデコーダ アグレッシブデコーダは、推論中の計算並列性を著しく向上させることができるが、必然的に集中的な計算をもたらし、また、破棄された予測に対する再復号による計算も導入する。 0.62
To reduce the computational cost for decoding, we propose to use a shallow decoder, which has proven to be an effective strategy (Kasai et al , 2020; Li et al , 2021) in neural machine translation (NMT), instead of using the Transformer with balanced encoder-decoder depth as the previous state-of-the-art Transformer models in GEC. 復号化の計算コストを削減するため,GECの従来の最先端トランスフォーマーモデルであるエンコーダ・デコーダ深さのバランスの取れたトランスフォーマーの代わりに,ニューラルネットワーク翻訳(NMT)において有効な戦略(Kasai et al , 2020; Li et al , 2021)であることが証明された浅層デコーダを提案する。 0.85
By combining aggressive decoding with the shallow decoder, we are able to further improve the inference efficiency. ところで アグレッシブデコードと浅いデコーダを組み合わせることで、推論効率をさらに向上させることができる。 0.65
4 Experiments 4.1 Data and Model Configuration We follow recent work in English GEC to conduct experiments in the restricted training setting of BEA-2019 GEC shared task (Bryant et al , 2019): We use Lang-8 Corpus of Learner English (Mizumoto et al , 2011), NUCLE (Dahlmeier et al , 2013), FCE (Yannakoudakis et al , 2011) and W&I+LOCNESS (Granger; Bryant et al , 2019) as our GEC training data. 4つの実験 我々は、bea-2019 gec共有タスクの制限されたトレーニング設定(bryant et al , 2019)で実験を行うために、最近の英語gecの作業に従い、学習者英語のlang-8コーパス(mizumoto et al , 2011)、nucle (dahlmeier et al , 2013)、fce (yannakoudakis et al , 2011)、w&i+locness (granger; bryant et al , 2019)をgecトレーニングデータとして使用しました。
訳抜け防止モード: 4つの実験 4.1 データとモデル構成 BEA-2019 GEC共有タスク(Brant et al, 2019)の限定学習環境で実験を行うため、近年の英語GECにおける研究に続き、Lang-8 Corpus of Learner English(Mizumoto et al, 2011)を使用します。 NUCLE (Dahlmeier et al, 2013 ), FCE (Yannakoudakis et al, 2011 ) そして、GECのトレーニングデータとして、W&I+LOCNESS(Granger ; Bryant et al, 2019 )を使いました。
0.73
For facilitating fair comparison in the efficiency evaluation, we follow the previous studies (Omelianchuk et al , 2020; Chen et al , 2020) which conduct GEC efficiency evaluation to use CoNLL-2014 (Ng et al , 2014) dataset that contains 1,312 sentences as our main test set, and evaluate the speedup as well as MaxMatch (Dahlmeier and Ng, 2012) precision, recall and F0.5 using their official evaluation scripts4. 効率評価の公平な比較を容易にするため,従来の研究(Omelianchuk et al , 2020; Chen et al , 2020)に従って,1,312文を含むCONLL-2014(Ng et al , 2014)データセットをメインテストセットとして使用し,MaxMatch(Dahlmeier and Ng, 2012)の精度,リコール,F0.5を公式評価スクリプト4を用いて評価した。 0.82
For validation, we use CoNLL-2013 (Ng et al , 2013) that contains 1,381 sentences as our validation set. 検証には,検証セットとして1,381文を含むCoNLL-2013(Ng et al , 2013)を用いる。 0.74
We also test our approach on NLPCC-18 Chinese GEC shared task (Zhao et al , 2018), following their training5 and evaluation setting, to verify the effectiveness of our approach in other languages. また,nlpcc-18中国gec共有タスク(zhao et al, 2018)において,学習5と評価設定に従ってアプローチをテストし,他言語におけるアプローチの有効性を検証する。 0.78
To compare with the state-of-the-art approaches in English GEC that pretrain with synthetic data, 合成データに事前学習した英語gecにおける最先端手法との比較 0.75
4https://github.com/ nusnlp/m2scorer 5Following Chen et al (2020), we sample 5,000 training 4https://github.com/ nusnlp/m2scorer 5Following Chen et al (2020), we sample 5,000 training 0.65
instances as the validation set. バリデーションセットとしてのインスタンス。 0.48
英語(論文から抽出)日本語訳スコア
Model Synthetic Data Total Latency (s) モデル 合成データトータルレイテンシ(s) 0.65
Transformer-big (beam=5) Transformer-big (greedy) Transformer-big (aggressive) Transformer-big (beam=5) Transformer-big (greedy) Transformer-big (aggressive) Transformer-big (beam=5) Transformer-big (greedy) Transformer-big (aggressive) Transformer-big (beam=5) Transformer-big (greedy) Transformer-big (aggressive) 0.72
No No No Yes Yes Yes いいえはいはいはいはいはいはい 0.70
440 328 54 437 320 60 440 328 54 437 320 60 0.85
Speedup 1.0× 1.3× 8.1× 1.0× 1.4× 7.3× Speedup 1.0× 1.3× 8.1× 1.0× 1.4× 7.3× 0.36
CoNLL-13 P CoNLL-13 P 0.72
53.84 52.75 52.75 57.06 56.45 56.45 53.84 52.75 52.75 57.06 56.45 56.45 0.43
R 18.00 18.34 18.34 23.62 24.70 24.70 R 18.00 18.34 18.34 23.62 24.70 24.70 0.64
F0.5 38.50 38.36 38.36 44.47 44.91 44.91 F0.5 38.50 38.36 38.36 44.47 44.91 44.91 0.41
Table 1: The performance and online inference efficiency of the Transformer-big with aggressive decoding in our validation set (CoNLL-13) that contains 1,381 sentences. 表1:1,381文を含む検証セット(CoNLL-13)でアグレッシブな復号を行うTransformer-bigの性能とオンライン推論効率。 0.74
We use Transformer-big (beam=5) as the baseline to compare the performance and efficiency of aggressive decoding. ベースラインとしてtransformer-big(beam =5)を用い,アグレッシブデコードの性能と効率を比較した。 0.68
we also synthesize 300M error-corrected sentence pairs for pretraining the English GEC model following the approaches of Grundkiewicz et al (2019) and Zhang et al (2019). また,Grundkiewicz et al (2019) と Zhang et al (2019) のアプローチに従って,英語 GEC モデルの事前学習のために 3M 誤り訂正文対を合成する。 0.75
Note that in the following evaluation sections, the models evaluated are by default trained without the synthetic data unless they are explicitly mentioned. 以下の評価セクションでは、評価されたモデルは、明示的に言及されない限り、合成データなしでデフォルトでトレーニングされる。 0.65
We use the most popular GEC model architecture – Transformer (big) model (Vaswani et al , 2017) as our baseline model which has a 6-layer encoder and 6-layer decoder with 1,024 hidden units. 私たちは6層エンコーダと1024個の隠蔽ユニットを持つ6層デコーダを持つベースラインモデルとして、トランスフォーマー(大きな)モデル(Vaswani et al , 2017)を使っています。 0.70
We train the English GEC model using an encoder-decoder shared vocabulary of 32K Byte Pair Encoding (Sennrich et al , 2016) tokens and train the Chinese GEC model with 8.4K Chinese characters. 我々は、32Kバイトペアエンコーディング(Sennrich et al , 2016)トークンのエンコーダ-デコーダ共用語彙を用いて英語GECモデルを訓練し、8.4K漢字で中国語GECモデルを訓練する。 0.75
We include more training details in the supplementary notes. 追加ノートには、さらなるトレーニングの詳細が含まれている。 0.60
For inference, we use greedy decoding6 by default. 推論には、デフォルトでgreedy decoding6を使用します。 0.66
All the efficiency evaluations are conducted in the online inference setting (i.e., batch size=1) as we focus on instantaneous GEC. すべての効率評価はオンライン推論設定(すなわちバッチサイズ=1)で行われ、即時GCCに焦点を当てる。 0.66
We perform model inference with fairseq7 implementation using Pytorch 1.5.1 with 1 Nvidia Tesla V100-PCIe of 16GB GPU memory under CUDA 10.2. CUDA 10.2 で Pytorch 1.5.1 と 1 Nvidia Tesla V100-PCIe の 16GB GPU メモリを用いたモデル推論を行う。 0.73
4.2 Evaluation for Aggressive Decoding We evaluate aggressive decoding in our validation set (CoNLL-13) which contains 1,381 validation examples. 4.2 アグレッシブデコードの評価 我々は、1,381の検証例を含む検証セット(conll-13)におけるアグレッシブデコードを評価する。 0.58
As shown in Table 1, aggressive decoding achieves a 7× ∼ 8× speedup over the original autoregressive beam search (beam=5), and generates exactly the same predictions as greedy decoding, as discussed in Section 3.1.2. 表1に示すように、アグレッシブデコーディングは、元の自己回帰ビーム探索(beam=5)に対して7×8×スピードアップを達成し、第3.1.2節で述べたように、グリーディデコーディングと全く同じ予測を生成する。 0.61
Since greedy decoding can achieve comparable overall performance (i.e., F0.5) with beam search while it tends 6Our implementation of greedy decoding is simplified for higher efficiency (1.3× ∼ 1.4× speedup over beam=5) than the implementation of beam=1 decoding in fairseq (around 1.1× speedup over beam=5). グリーディ復号化はビーム探索と同等の性能(すなわちf0.5)を達成できるが、グリーディ復号化の6つの実装は、fairseqでのbeam=1復号化(beam=5の約1.1×スピードアップ)よりも高い効率(1.3× 1.4× speedup over beam=5)で単純化される。 0.65
7https://github.com/ pytorch/fairseq 7https://github.com/ pytorch/fairseq 0.36
Figure 2: The speedup (over greedy decoding) distribution of all the 1,381 validation examples with respect to their edit ratio in CoNLL-13. 図2:CoNLL-13における編集率に関する1,381個の検証例のスピードアップ(過剰な復号化)分布。 0.78
to make more edits resulting in higher recall but lower precision, the advantage of aggressive decoding in practical GEC applications is obvious given its strong performance and superior efficiency. より多くの編集を行うことで、リコールは高いが精度は低いが、実用的なGECアプリケーションにおけるアグレッシブデコーディングの利点は、高い性能と優れた効率のために明らかである。
訳抜け防止モード: より高いリコールと精度の低い編集を行う GECアプリケーションにおけるアグレッシブデコーディングの利点は、その性能と優れた効率を考えると明らかである。
0.76
We further look into the efficiency improvement by aggressive decoding. 我々は、アグレッシブデコーディングによる効率改善をさらに検討する。 0.73
Figure 2 shows the speedup distribution of the 1,381 examples in CoNLL-13 with respect to their edit ratio which is defined as the normalized (by the input length) edit distance between the input and output. 図2は、入力と出力の間の正規化された(入力長さによって)編集距離として定義される編集比率に関するconll-13の1,381例のスピードアップ分布を示しています。
訳抜け防止モード: 図2は、CoNLL-13の1,381例の、その編集率に関するスピードアップ分布を示している。 is defined as the normalized ( by by the input length )Edit distance between the input and output.
0.87
It is obvious that the sentences with fewer edits tend to achieve higher speedup, which is consistent with our intuition that most tokens in such sentences can be decoded in parallel through aggressive decoding; on the other hand, for the sentences that are heavily edited, their speedup is limited because of frequent re-decoding. このような文のほとんどのトークンはアグレッシブな復号化によって並列に復号化できるという直感と一致しており、一方、重編集された文に対しては、頻繁に復号されるため、スピードアップが制限されていることは明らかである。 0.66
To give a more intuitive analysis, we also present concrete examples with various speedup in our validation set to understand how aggressive decoding improves the inference efficiency in Table 2. より直感的な分析を行うため、検証セットに様々なスピードアップを施した具体例を示し、テーブル2におけるアグレッシブデコーディングが推論効率をいかに改善するかを理解する。 0.76
Moreover, we conduct an ablation study to in- さらに,in-に対してアブレーション研究を行う。 0.63
0.000.050.100.150.20 0.250.300.350.400.45 Edit Ratio05101520253035S peedup 0.000.050.100.150.20 0.250.300.350.400.45 edit ratio05101520253035s peedup 0.12
英語(論文から抽出)日本語訳スコア
Speedup 16.7× スピードアップ16.7× 0.55
Edit Ratio 0 5.8× 6.8× 編集率 0 5.8× 6.8× 0.65
5.1× 3.5× 1.5× 1.4× 5.1× 3.5× 1.5× 1.4× 0.42
0 0.03 0.06 0 0.03 0.06 0.68
0.13 0.27 0.41 0.13 0.27 0.41 0.59
Input Personally , I think surveillance technology such as RFID ( radio-frequency identification ) should not be used to track people , for the benefit it brings to me can not match the concerns it causes . 個人的には、RFID(無線周波数識別)のような監視技術は、人を追跡するために使うべきではないと思います。
訳抜け防止モード: 個人的には RFID(無線 - 周波数識別)のような監視技術は、人々の追跡には使用すべきではない。 それが私にもたらす利益は、それが引き起こす懸念に合わない。
0.69
Nowadays , people use the all-purpose smart phone for communicating . 現在、人々は全目的のスマートフォンを使って通信しています。 0.58
Because that the birth rate is reduced while the death rate is also reduced , the percentage of the elderly is increased while that of the youth is decreased . また、死亡率を低下させながら出生率を低下させるので、若年者の死亡率を低下させる一方、高齢者の割合を増加させる。 0.60
More importantly , they can share their ideas of how to keep healthy through Internet , to make more interested people get involve and find ways to make life longer and more wonderful . さらに重要なことは、インターネットを通じて健康を保ち、より多くの興味を持つ人々を巻き込み、人生をより長く、より素晴らしいものにする方法を見つけるためのアイデアを共有することだ。
訳抜け防止モード: さらに重要なのは、インターネットを通じて健康を維持するためのアイデアを共有できることだ。 人々がより興味を持ち より長く素晴らしい人生を 創り出す方法を見つけます
0.79
As a result , people have more time to enjoy advantage of modern life . その結果、現代生活を享受する時間が増えた。 0.51
Nowadays , technology is more advance than the past time . 現在、テクノロジーは過去よりも進歩している。 0.66
People are able to predicate some disasters like the earth quake and do the prevention beforehand . 人々は地球地震のような災害を予知し、事前に予防を行うことができます。 0.73
Output [Personally , I think surveillance technology such as RFID ( radio-frequency identification ) should not be used to track people , for the benefit it brings to me can not match the concerns it causes . アウトプット [個人的には、rfid(radio-frequency identification )のような監視技術は、人々を追跡するために使うべきではないと思います。 0.60
]0 [Nowadays , people use the all-purpose smart phone for communicating . 現在、人々はこの全目的のスマートフォンを通信に使っている。 0.72
]0 [Because the]0 [birth]1 [rate is reduced while the death rate is also reduced , the percentage of the elderly is increased while that of the youth is decreased . 0[出生]1[死亡率も低下する一方,]0[出生]1[死亡率も低下するので,高齢者の割合は増加し,若年者の割合は減少する。 0.70
]2 [More importantly , they can share their ideas of how to keep healthy through the]0 [Internet]1 [, to make more interested people get involved]2 [and]3 [find]4 [ways to make life longer and more wonderful . ]2 [さらに重要なことに、彼らは]0 [internet]1 [, より多くの興味を持つ人々を巻き込むために]2 [そして]3 [find]4 [人生をより長く素晴らしいものにするために]を通して健康を維持する方法のアイデアを共有できます。 0.80
]5 [As a result , people have more time to enjoy the]0 [advantages]1 [of]2 [modern life . ]5[結果として,0[advantages]1[of]2[modern life]を楽しむ時間が増えた。
訳抜け防止モード: ]5] 結果として、人々はより多くの時間を持っています 0[利点]1[現代生活]を楽しむために。
0.77
]3 [Nowadays , technology is more advanced]0 [than]1 [in]2 [the]3 [past . ]3 [現在,技術はより進歩しています]0 [than]1 [in]2 [the]3 [past] 0.84
]4 [People are able to predict]0 [disasters]1 [like the earthquake]2 [and]3 [prevent]4 [them]5 [beforehand]6 [. ]4[人々は]0[災害]1[地震]2[と]3[予防]4[前]5[前]6[を予測できる。 0.67
]7 Table 2: Examples of various speedup ratios by aggressive decoding over greedy decoding in CoNLL-13. ]7 表2:CoNLL-13におけるグレディデコードに対するアグレッシブデコードによる様々なスピードアップ比の例 0.80
We show how the examples are decoded in the column of Output, where the tokens within a blue block are decoded in parallel through aggressive decoding while the tokens in red blocks are decoded through the original autoregressive greedy decoding. 青ブロック内のトークンはアグレッシブデコードによって並列にデコードされ、赤ブロック内のトークンはオリジナルの自己回帰的なグリーディデコードを通じてデコードされる。
訳抜け防止モード: サンプルがアウトプットの列でどのようにデコードされるかを示す。 青いブロック内のトークンがアグレッシブなデコードによって並列にデコードされる場合 赤いブロックのトークンは、オリジナルの自己回帰的な欲望復号によってデコードされる。
0.68
Lmax 1 (Baseline) Lmax 1(ベースライン) 0.81
2 3 5 10 20 40 2 3 5 10 20 40 0.85
Unlimited Total Latency (s) 無制限 Total Latency (複数形 Total Latencys) 0.68
328 208 148 109 75 64 54 54 328 208 148 109 75 64 54 54 0.85
Speedup 1.0× 1.6× 2.2× 3.0× 4.4× 5.1× 6.1× 6.1× Speedup 1.0× 1.6× 2.2× 3.0× 4.4× 5.1× 6.1× 6.1× 0.35
Table 3: The ablation study of the effect of constraining the maximal aggressive decoding length Lmax on the online inference efficiency in CoNLL-13. 表3: 最大攻撃的復号長LmaxがCoNLL-13のオンライン推論効率に及ぼす影響に関するアブレーション研究。 0.76
Note that in CoNLL-13, the average length of an example is 21 and 96% examples are shorter than 40 tokens. CoNLL-13では、サンプルの平均の長さは21で、96%のサンプルは40トークンよりも短い。 0.70
vestigate whether it is necessary to constrain the maximal aggressive decoding length8, because it might become highly risky to waste large amounts of computation because of potential re-decoding for a number of steps after the bifurcation if we aggressively decode a very long sequence in parallel. なぜなら、非常に長いシーケンスを並列に積極的にデコードする場合、分岐後の多くのステップで再デコードする可能性があるため、大量の計算を無駄にすることは、非常に危険になる可能性があるためである。
訳抜け防止モード: 必要であろうと 最大攻撃的復号長8を 制限するために なぜなら、潜在的な再帰のために大量の計算を浪費するリスクが高いためです - 分岐後のいくつかのステップの復号 非常に長いシーケンスを 並列にアグレッシブにデコードすれば
0.77
Table 3 shows the online inference efficiency with different maximal aggressive decoding lengths. 表3は、最大攻撃的復号長の異なるオンライン推論効率を示す。 0.70
It appears that constraining the maximal aggressive 最大攻撃性に制約を課すさま 0.62
8Constraining the maximal aggressive decoding length to Lmax means that the model can only aggressively decode at most Lmax tokens in parallel. 8 最大アグレッシブデコード長をLmaxに制限すると、ほとんどのLmaxトークンを並列にアグレッシブデコードできる。
訳抜け防止モード: 8Lmaxへの最大攻撃的復号長の制約 つまり、モデルはほとんどのLmaxトークンを並列にアグレッシブにデコードできるだけだ。
0.76
Model (Enc+Dec) モデル (Enc+Dec) 0.79
6+6 3+6 9+6 6+3 6+9 7+5 8+4 9+3 10+2 11+1 6+6 3+6 9+6 6+3 6+9 7+5 8+4 9+3 10+2 11+1 0.42
CoNLL-13 F0.5 38.36 36.26 38.82 37.95 38.02 38.49 38.63 38.88 38.21 38.15 CoNLL-13 F0.5 38.36 36.26 38.82 37.95 38.02 38.49 38.63 38.88 38.21 38.15 0.50
Total Latency 328 314 345 175 457 271 240 181 137 86 全レイテンシ 328 314 345 175 457 271 240 181 137 86 0.69
Speedup 1.0× 1.0× 1.0× 1.9× 0.7× 1.2× 1.4× 1.8× 2.4× 3.8× Speedup 1.0× 1.0× 1.0× 1.9× 0.7× 1.2× 1.4× 1.8× 2.4× 3.8× 0.34
Table 4: The performance and efficiency of the Transformer with different encoder and decoder depths in CoNLL-13, where 6+6 is the original Transformer-big model that has a 6-layer encoder and a 6-layer decoder. 表4: 6+6が6層エンコーダと6層デコーダを備えたオリジナルのトランスフォーマビッグモデルであるconll-13における、エンコーダとデコーダ深さの異なるトランスフォーマの性能と効率。 0.81
decoding length does not help improve the efficiency; instead, it slows down the inference if the maximal aggressive decoding length is set to a small number. 復号長は効率を改善するのに役立ちません;代わりに、最大攻撃的な復号長が小さい数に設定された場合に推論を遅くします。 0.68
We think the reason is that sentences in GEC datasets are rarely too long. GECデータセットの文が長すぎることは滅多にないからです。 0.66
For example, the average length of the sentences in CoNLL-13 is 21 and 96% of them are shorter than 40 tokens. 例えば、CoNLL-13の文の平均長は21で、そのうち96%は40トークンより短い。
訳抜け防止モード: 例えば、CoNLL-13の文の平均の長さは21である。 そのうち96%は40個未満のトークンです
0.73
Therefore, it is unnecessary to constrain the maximal aggressive decoding length in GEC. したがって、gecの最大アグレッシブ復号長を制約することは不要である。 0.70
英語(論文から抽出)日本語訳スコア
Model Transformer-big (beam=5) Levenshtein Transformer(cid:63) (Gu et al , 2019) LaserTagger(cid:63) (Malmi et al , 2019) Span Correction(cid:63) (Chen et al , 2020) Our approach (9+3) Transformer-big (beam=5) PIE(cid:63) (Awasthi et al , 2019) Span Correction(cid:63) (Chen et al , 2020) Our approach (9+3) Seq2Edits (Stahlberg and Kumar, 2020) GECToR(RoBERTa) (Omelianchuk et al , 2020) GECToR(XLNet) (Omelianchuk et al , 2020) Our approach (12+2 BART-Init) Model Transformer-big (beam=5) Levenshtein Transformer (cid:63) (Gu et al , 2019) LaserTagger (cid:63) (Malmi et al , 2019) Span Correction (cid:63) (Chen et al , 2020) 我々のアプローチ (9+3) Transformer-big (beam=5) PIE(cid:63) (Awasthi et al , 2019) Span Correction (cid:63) (Chen et al , 2020) 我々のアプローチ (9+3) Seq2Edits (Stahlberg and Kumar, 2020) GECTR(RoBERTa) (Omelianchuk et al , 2020) GECToR(X) GECToR(X) (Omeliank et al , 2020) 0.94
No No No No No Yes Yes Yes Yes Yes Yes Yes Yes いやいやいやいやいやいやいや はい はいはい はいはい はいはい 0.36
Synthetic Data Multi-stage Fine-tuning 合成データ多段ファインチューニング 0.79
No No No No No No No No No Yes Yes Yes Yes いやいやいやいやいやいやいやいやいやいやいやいやいや はいはいはい 0.19
P 60.2 53.1 50.9 66.0 58.8 73.0 66.1 72.6 73.3 63.0 73.9 77.5 71.0 P 60.2 53.1 50.9 66.0 58.8 73.0 66.1 72.6 73.3 63.0 73.9 77.5 71.0 0.43
CoNLL-14 R 32.1 23.6 26.9 24.7 33.1 38.1 43.0 37.2 41.3 45.6 41.5 40.1 52.8 CoNLL-14 R 32.1 23.6 26.9 24.7 33.1 38.1 43.0 37.2 41.3 45.6 41.5 40.1 52.8 0.43
F0.5 51.2 42.5 43.2 49.5 50.9 61.6 59.7 61.0 63.5 58.6 64.0 65.3 66.4 F0.5 51.2 42.5 43.2 49.5 50.9 61.6 59.7 61.0 63.5 58.6 64.0 65.3 66.4 0.40
Speedup 1.0× 2.9× 29.6× 2.6× 10.5× 1.0× 10.3× 2.6× 10.3× 12.4×9.6× Speedup 1.0× 2.9× 29.6× 2.6× 10.5× 1.0× 10.3× 2.6× 10.3× 12.4×9.6× 0.31
- Table 5: The performance and online inference efficiency evaluation of efficient GEC models in CoNLL-14. - 表5:CoNLL-14における効率的なECCモデルの性能とオンライン推論効率の評価。 0.78
For the models with (cid:63), their performance and speedup numbers are from Chen et al (2020) who evaluate the online efficiency in the same runtime setting (e g , GPU and runtime libraries) with ours. cid:63のモデルでは、Chen et al (2020) によるパフォーマンスとスピードアップの数値が同じランタイム設定(GPUやランタイムライブラリなど)でオンラインの効率を評価するものである。 0.71
The underlines indicate the speedup numbers of the models are evaluated with Tensorflow based on their released codes, which are not strictly comparable here. 下の行は、リリースされたコードに基づいて、モデルのスピードアップ数がtensorflowで評価されていることを示している。 0.64
Note that for GECToR, we re-implement its inference process of GECToR (RoBERTa) using fairseq for testing its speedup in our setting. GECToRでは、fairseqを使ってGECToR(RoBERTa)の推論プロセスを再実装し、そのスピードアップをテストしています。 0.71
- means the speedup cannot be tested in our runtime environment because the model has not been released or not implemented in fairseq. モデルがリリースされていないか、fairseqで実装されていないため、ランタイム環境ではスピードアップはテストできません。 0.61
4.3 Evaluation for Shallow Decoder 4.3 浅層デコーダの評価 0.77
We study the effects of changing the number of encoder and decoder layers in the Transformer-big on both the performance and the online inference efficiency. 本研究では,Transformer-bigにおけるエンコーダとデコーダの層数の変更が,性能およびオンライン推論効率に与える影響について検討する。 0.76
By comparing 6+6 with 3+6 and 9+6 in Table 4, we observe the performance improves as the encoder becomes deeper, demonstrating the importance of the encoder in GEC. 表4の6+6と3+6と9+6を比較することで、エンコーダが深まるにつれて性能が向上し、GECにおけるエンコーダの重要性が示される。 0.65
In contrast, by comparing the 6+6 with 6+3 and 6+9, we do not see a substantial fluctuation in the performance, indicating no necessity of a deep decoder. 対照的に、6+6と6+3と6+9を比較すると、性能の大幅な変動は見られず、深いデコーダは不要である。 0.78
Moreover, it is observed that a deeper encoder does not significantly slow down the inference but a shallow decoder can greatly improve the inference efficiency. さらに、より深いエンコーダは推論を著しく遅くすることはないが、浅いデコーダは推論効率を大幅に向上させることができる。 0.72
This is because Transformer encoders can be parallelized efficiently on GPUs, whereas Transformer decoders are auto-regressive and hence the number of layers greatly affects decoding speed, as discussed in Section 3.2. これは、トランスフォーマエンコーダがgpu上で効率的に並列化できるのに対して、トランスフォーマデコーダは自己回帰的であるため、レイヤ数が大きくデコード速度に影響しているためである。 0.62
These observations motivate us to make the encoder deeper and the decoder shallower. これらの観察は、エンコーダをより深く、デコーダをより浅くする動機となります。 0.57
As shown in the bottom group of Table 4, we try different combinations of the number of encoder and decoder layers given approximately the same parameterization budget as the Transformerbig. 表4の下部グループに示すように、Transformerbigとほぼ同じパラメータ化予算を与えられたエンコーダ層とデコーダ層の数の組み合わせを試す。 0.71
It is interesting to observe that 7+5, 8+4 and 9+3 achieve the comparable and even better performance than the Transformer-big baseline with much less computational cost. 7+5、8+4、9+3はTransformer-Bigベースラインと同等で、計算コストの少ないパフォーマンスを実現しているのが興味深い。 0.72
When we further increase the encoder layer and decrease the decoder layer, we see a drop in the performance of 10+2 エンコーダ層をさらに増加してデコーダ層を減少させると、10+2の性能低下が見られる。 0.79
and 11+1 despite the improved efficiency because it becomes difficult to train the Transformer with extremely imbalanced encoder and decoder well, as indicated9 by the previous work (Kasai et al , 2020; Li et al , 2021; Gu and Kong, 2020). また、トランスフォーマーを極端に不均衡なエンコーダとデコーダで訓練することが困難になり、効率が向上したにもかかわらず、前作(Kasai et al , 2020; Li et al , 2021; Gu and Kong, 2020)で示されるように、11+1である。 0.68
Since the 9+3 model achieves the best result with an around 2× speedup in the validation set with almost the same parameterization budget, we choose it as the model architecture to combine with aggressive decoding for final evaluation. 9+3モデルは、ほぼ同じパラメータ化予算で検証セットの約2倍のスピードアップで最良の結果が得られるので、最終的な評価のためにアグレッシブデコーディングと組み合わせるモデルアーキテクチャとして選択する。 0.79
4.4 Results We evaluate our final approach – shallow aggressive decoding which combines aggressive decoding with the shallow decoder. 4.4 結果は最終アプローチであるアグレッシブデコードとアグレッシブデコードを組み合わせたアグレッシブデコードを評価する。 0.62
Table 5 shows the performance and efficiency of our approach and recently proposed efficient GEC models that are all faster than the Transformer-big baseline in CoNLL-14 test set. 表5は、我々のアプローチの性能と効率を示し、最近、CoNLL-14テストセットのTransformer-bigベースラインよりも高速な効率的なGECモデルを提案する。 0.71
Our approach (the 9+3 model with aggressive decoding) that is pretrained with synthetic data achieves 63.5 F0.5 with 10.3× speedup over the Transformer-big baseline, which outperforms the majority10 of the efficient GEC models in terms of either quality or speed. 合成データで事前学習した9+3モデル(アグレッシブデコード)では,トランスフォーマー大ベースラインを10.3倍の速度アップで63.5 f0.5を達成している。
訳抜け防止モード: 合成データで事前学習したアプローチ(9+3モデル)はトランスフォーマの速度10.3倍の63.5 f0.5を達成した。 効率の良いgecモデルの10パーセントを、品質とスピードのどちらでも上回っている。
0.65
The only model that shows advantages over our 9+3 model is GECToR which is developed based on the powerful pretrained mod- 我々の9+3モデルに対するアドバンテージを示す唯一のモデルはGECToRであり、これは強力な事前学習モードに基づいて開発されている。 0.60
9They show that sequence-level knowledge distillation (KD) may benefit training the extremely imbalanced Transformer in NMT. 9) シーケンスレベル知識蒸留(kd)はnmtの非常に不均衡なトランスフォーマーの訓練に有用である。 0.59
However, we do not conduct KD for fair comparison to other GEC models in previous work. しかし、以前の研究で他のGECモデルと公正に比較するためには、KDは実施しない。 0.56
10It is notable that PIE is not strictly comparable here because their training data is different from ours: PIE does not use the W&I+LOCNESS corpus. PIEはW&I+LOCNESSコーパスを使用しないため、トレーニングデータが異なるため、厳密にはPIEと同等ではない点が注目に値する。 0.73
英語(論文から抽出)日本語訳スコア
Model Transformer-big (beam=5) Levenshtein Transformer(cid:63) LaserTagger(cid:63) Span Correction(cid:63) Our approach (9+3) モデル Transformer-big (beam=5) Levenshtein Transformer (cid:63) LaserTagger (cid:63) Span Correction (cid:63) 我々のアプローチ (9+3) 0.77
P 36.0 24.9 25.6 37.3 33.0 P 36.0 24.9 25.6 37.3 33.0 0.48
NLPCC-18 R 17.2 15.0 10.5 14.5 20.5 NLPCC-18 R 17.2 15.0 10.5 14.5 20.5 0.47
F0.5 29.6 22.0 19.9 28.4 29.4 F0.5 29.6 22.0 19.9 28.4 29.4 0.41
Speedup 1.0× 3.1× 38.0× 2.7× 12.0× Speedup 1.0× 3.1× 38.0× 2.7× 12.0× 0.37
Table 6: The performance and online inference efficiency evaluation for the language-independent efficient GEC models in the NLPCC-18 Chinese GEC benchmark. 表6: NLPCC-18 中国語 GEC ベンチマークにおける言語に依存しない効率的な GEC モデルの性能とオンライン推論効率の評価。 0.73
els (e g , RoBERTa (Liu et al , 2019) and XLNet (Yang et al , 2019)) with its multi-stage training strategy. el (e g , RoBERTa (Liu et al , 2019) と XLNet (Yang et al , 2019) はマルチステージトレーニング戦略を採用している。 0.87
Following GECToR’s recipe, we leverage the pretrained model BART (Lewis et al , 2019) to initialize a 12+2 model which proves to work well in NMT (Li et al , 2021) despite more parameters, and apply the multi-stage fine-tuning strategy used in Stahlberg and Kumar (2020). GECToRのレシピに従って、トレーニング済みのモデルであるBART(Lewis et al , 2019)を活用して、より多くのパラメータにもかかわらずNTT(Li et al , 2021)でうまく機能することが証明された12+2モデルを初期化し、SthlbergとKumar(2020)で使用されるマルチステージの微調整戦略を適用します。 0.64
The final single model11 with aggressive decoding achieves the state-of-the-art result – 66.4 F0.5 in the CoNLL-14 test set with a 9.6× speedup over the Transformerbig baseline. 攻撃的なデコードを持つ最後のシングルモデル11は、トランスフォーマービッグベースライン上の9.6倍のスピードアップで、CoNLL-14テストセットの66.4 F0.5の最先端結果を達成する。 0.55
Unlike GECToR and PIE that are difficult to adapt to other languages despite their competitive speed because they are specially designed for English GEC with many manually designed languagespecific operations like the transformation of verb forms (e g , VBD→VBZ) and prepositions (e g , in→at), our approach is data-driven without depending on language-specific features, and thus can be easily adapted to other languages (e g , Chinese). GECToRやPIEは、競争速度にもかかわらず他言語への適応が難しいが、動詞形式(例えば、VBD→VBZ)や前置詞(例えば、in→at)などの手作業で設計された言語固有の操作を多用した英語GEC用に特別に設計されているため、我々のアプローチは言語固有の特徴によらず、データ駆動である。 0.71
As shown in Table 6, our approach consistently performs well in Chinese GEC, showing an around 12.0× online inference speedup over the Transformer-big baseline with comparable performance. 表6に示すように、我々のアプローチは中国のECCでは一貫して良好に機能し、Transformer-Bigベースラインの約12.0倍のオンライン推論速度と同等のパフォーマンスを示している。 0.55
5 Related Work The state-of-the-art of GEC has been significantly advanced owing to the tremendous success of seq2seq learning (Sutskever et al , 2014) and the Transformer (Vaswani et al , 2017). 5 関連作業 GECの最先端は、Seq2seq学習(Sutskever et al , 2014)とTransformer(Vaswani et al , 2017)の素晴らしい成功により、著しく進歩している。 0.72
Most recent work on GEC focuses on improving the performance of the Transformer-based GEC models. GECに関する最近の研究は、TransformerベースのGECモデルの性能改善に焦点を当てている。 0.69
However, except for the approaches that add synthetic erroneous data for pretraining (Ge et al , 2018a; Grundkiewicz et al , 2019; Zhang et al , しかし、事前トレーニングのための合成誤データを追加するアプローチを除いて(Ge et al , 2018a; Grundkiewicz et al , 2019; Zhang et al )。 0.75
11The same model checkpoint also achieves the state-ofthe-art result – 72.9 F0.5 with a 9.3× speedup in the BEA-19 test set. 72.9 f0.5でbea-19テストセットの9.3倍のスピードアップを実現している。 0.58
2019; Lichtarge et al , 2019; Zhou et al , 2020; Wan et al , 2020), most methods that improve performance (Ge et al , 2018b; Kaneko et al , 2020) introduce additional computational cost and thus slow down inference despite the performance improvement. 2019; lichtarge et al , 2019; zhou et al , 2020; wan et al , 2020) パフォーマンスを改善するほとんどの方法(ge et al , 2018b; kaneko et al , 2020)は、パフォーマンス改善にもかかわらず、追加の計算コストを導入し、推論を遅くする。 0.89
To make the Transformer-based GEC model more efficient during inference for practical application scenarios, some recent studies have started exploring the approaches based on edit operations. 実用的なアプリケーションシナリオの推論において,Transformer ベースの GEC モデルをより効率的にするため,最近の研究では,編集操作に基づくアプローチの探求が始まっている。 0.70
Among them, PIE (Awasthi et al , 2019) and GECToR (Omelianchuk et al , 2020) propose to accelerate the inference by simplifying GEC from sequence generation to iterative edit operation tagging. このうち, PIE (Awasthi et al , 2019) と GECToR (Omelianchuk et al , 2020) は, GEC をシーケンス生成から反復編集操作のタグ付けまで単純化することにより推論を高速化することを提案する。 0.73
However, as they rely on many languagedependent edit operations such as the conversion of singular nouns to plurals, it is difficult for them to adapt to other languages. しかし、単数名詞の複数形への変換など多くの言語依存の編集操作に依存しているため、他の言語への適応は困難である。 0.80
LaserTagger (Malmi et al , 2019) uses the similar method but it is datadriven and language-independent by learning operations from training data. LaserTagger (Malmi et al , 2019) も同様の手法を用いるが、データ駆動型であり、トレーニングデータからの学習操作によって言語に依存しない。 0.73
However, its performance is not so desirable as its seq2seq counterpart despite its high efficiency. しかし、その性能は高い効率にもかかわらずSeq2seqほど望ましいものではない。 0.76
The only two previous efficient approaches that are both languageindependent and good-performing are Stahlberg and Kumar (2020) which uses span-based edit operations to correct sentences to save the time for copying unchanged tokens, and Chen et al (2020) which first identifies incorrect spans with a tagging model then only corrects these spans with a generator. 言語非依存と優れたパフォーマンスの両方を持つ、以前の2つの効率的なアプローチは、スパンベースの編集操作を使用して変更されていないトークンをコピーする時間を節約する stahlberg と kumar (2020) と、タグモデルで不正確なスパンを最初に識別する chen et al (2020) の2つだけだ。 0.64
However, all the approaches have to extract edit operations and even conduct token alignment in advance from the error-corrected sentence pairs for training the model. しかし、すべてのアプローチは、モデルを訓練するための誤り訂正文対から編集操作を抽出し、トークンアライメントを事前に行う必要がある。 0.71
In contrast, our proposed shallow aggressive decoding tries to accelerate the model inference through parallel autoregressive decoding which is related to some previous work (Ghazvininejad et al , 2019; Stern et al , 2018) in neural machine translation (NMT), and the imbalanced encoder-decoder architecture which これとは対照的に,提案する浅層アグレッシブデコーディングは,ニューラルネットワーク翻訳(nmt)における先行研究(ghazvininejad et al , 2019; stern et al , 2018)と不均衡エンコーダ-デコーダアーキテクチャに関連する並列自己回帰デコードを通じてモデル推論を高速化しようとするものである。 0.76
英語(論文から抽出)日本語訳スコア
is recently explored by Kasai et al (2020) and Li et al (2021) for NMT. 近年,NMT の Kasai et al (2020) と Li et al (2021) によって調査されている。 0.79
Not only is our approach language-independent , efficient and guarantees that its predictions are exactly the same with greedy decoding, but also does not need to change the way of training, making it much easier to train without so complicated data preparation as in the edit operation based approaches. 我々のアプローチは言語に依存しず、効率的であり、その予測がグリージーデコードと全く同じであることを保証するだけでなく、トレーニングの方法を変える必要もなく、編集操作ベースのアプローチのように複雑なデータ準備なしでトレーニングがより簡単になる。 0.78
6 Conclusion and Future Work In this paper, we propose Shallow Aggressive Decoding (SAD) to accelerate online inference efficiency of the Transformer for instantaneous GEC. 6 結論と今後の課題 この論文では,トランスフォーマーのオンライン推論効率を即時GECに向上させるために,Shallow Aggressive Decoding (SAD)を提案する。 0.73
Aggressive decoding can yield the same prediction quality as autoregressive greedy decoding but with much less latency. 攻撃的復号化は自己回帰的強欲的復号化と同じ品質が得られるが、遅延ははるかに少ない。 0.50
Its combination with the Transformer with a shallow decoder can achieve state-of-the-art performance with a 9× ∼ 12× online inference speedup over the Transformer-big baseline for GEC. トランスフォーマと浅いデコーダを組み合わせることで、gecのトランスフォーマ大きなベースラインよりも9×12×オンライン推論スピードアップで最先端のパフォーマンスを実現することができる。 0.59
Based on the preliminary study of SAD in GEC, we plan to further explore the technique for accelerating the Transformer for other sentence rewriting tasks, where the input is similar to the output, such as style transfer and text simplification. GECにおけるSADの予備研究に基づき、入力がスタイル転送やテキストの簡略化といった出力に類似している他の文書き換えタスクに対して、Transformerを高速化する手法をさらに検討する予定である。 0.83
We believe SAD is promising to become a general acceleration methodology for writing intelligence models in modern writing assistant applications that require fast online inference. SADは、高速なオンライン推論を必要とする現代的な書込みアシスタントアプリケーションにおいて、インテリジェンスモデルを記述するための一般的な加速方法論になる、と私たちは信じています。 0.54
Acknowledgments We thank all the reviewers for their valuable comments to improve our paper. すべてのレビュアーの貴重なコメントに感謝して、私たちの論文を改善します。 0.58
We thank Xingxing Zhang, Xun Wang and Si-Qing Chen for their insightful discussions and suggestions. 私たちは、Xingxing Zhang氏、Xun Wang氏、Si-Qing Chen氏の洞察に富んだ議論と提案に感謝します。 0.54
The work is supported by National Natural Science Foundation of China under Grant No.62036001. この研究は、グラントNo.62036001の下で中国国立自然科学財団が支援している。 0.61
The corresponding author of this paper is Houfeng Wang. 本論文の著者はhoufeng wangである。 0.61
References Abhijeet Awasthi, Sunita Sarawagi, Rasna Goyal, Sabyasachi Ghosh, and Vihari Piratla. 参照: Abhijeet Awasthi, Sunita Sarawagi, Rasna Goyal, Sabyasachi Ghosh, Vihari Piratla。 0.72
2019. Parallel iterative edit models for local sequence transduction. 2019. 局所シーケンス変換のための並列反復編集モデル 0.81
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 4251–4261. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)は、2019年の自然言語処理における経験的手法に関する会議である。 0.69
Christopher Bryant, Mariano Felice, Øistein E Andersen, and Ted Briscoe. christopher bryant, mariano felice, øistein e andersen, ted briscoe。 0.59
2019. The bea-2019 shared task on grammatical error correction. 2019. ビー2019は文法的誤り訂正のタスクを共有した。 0.69
In Proceedings of the Fourteenth Workshop on Innovative 第14回イノベーティブワークショップの開催にあたって 0.67
Use of NLP for Building Educational Applications, pages 52–75. NLPによる教育用アプリケーションの構築,52-75頁。 0.77
Mengyun Chen, Tao Ge, Xingxing Zhang, Furu Wei, and Ming Zhou. Mengyun Chen, Tao Ge, Xing Xing Zhang, Furu Wei, Ming Zhou 0.72
2020. Improving the efficiency of grammatical error correction with erroneous span detection and correction. 2020. 誤スパン検出と補正による文法的誤り訂正の効率向上 0.79
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7162–7169. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録7162-7169頁。 0.71
Daniel Dahlmeier and Hwee Tou Ng. Daniel DahlmeierとHwee Tou Ng。 0.80
2012. Better evaluation for grammatical error correction. 2012. 文法的誤り訂正のより良い評価。 0.78
In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 568–572. The Association for Computational Linguistics: Human Language Technologies, page 568–572. 2012年北米支部の成果。 0.64
Daniel Dahlmeier, Hwee Tou Ng, and Siew Mei Wu. Daniel Dahlmeier, Hwee Tou Ng, Siew Mei Wu 0.64
2013. Building a large annotated corpus of learner english: The nus corpus of learner english. 2013. 英語学習者の大きな注釈付きコーパスを構築する: 英語学習者のnusコーパス。 0.78
In Proceedings of the eighth workshop on innovative use of NLP for building educational applications, pages 22–31. The Proceedings of the 8 Workshop on innovative use of NLP for building educational applications, 22–31。 0.84
Tao Ge, Furu Wei, and Ming Zhou. Tao Ge, Furu Wei,およびMing Zhou。 0.76
2018a. Fluency boost learning and inference for neural grammatical error correction. 2018年。 ニューラルグラマティックな誤り訂正のためのフラレンシー強化学習と推論 0.63
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1055– 1065, Melbourne, Australia. 第56回計算言語学会年次大会(Volume 1: Long Papers)において,1055-1065頁,メルボルン,オーストラリア 0.62
Association for Computational Linguistics. Tao Ge, Furu Wei, and Ming Zhou. 計算言語学会会員。 Tao Ge, Furu Wei,およびMing Zhou。 0.64
2018b. Reaching human-level performance in automatic grammatical error correction: An empirical study. 2018年。 自動文法的誤り訂正における人間レベル性能の到達:実証的研究 0.64
arXiv preprint arXiv:1807.01270. arXiv preprint arXiv:1807.01270 0.72
Marjan Ghazvininejad, Omer Levy, Yinhan Liu, and Luke Zettlemoyer. Marjan Ghazvininejad、Omer Levy、Yinhan Liu、Luke Zettlemoyer。 0.67
2019. Mask-predict: Parallel decoding of conditional masked language models. 2019. mask-predict: 条件付きマスク言語モデルの並列復号。 0.83
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 6114– 6123. 自然言語処理における経験的方法に関する2019年会議および第9回国際自然言語処理会議(EMNLP-IJCNLP)において、6114-6123頁。 0.84
Sylviane Granger. Sylviane Granger 0.57
The computer learner corpus: a ver- コンピュータ学習者コーパス : ver- 0.65
satile new source of data for SLA research. SLA研究のための新たなデータソース。 0.81
Roman Grundkiewicz, Marcin Junczys-Dowmunt, and Kenneth Heafield. Roman Grundkiewicz、Marcin Junczys-Dowmunt、Kenneth Heafield。 0.74
2019. Neural grammatical error correction systems with unsupervised pre-training on synthetic data. 2019. 教師なし事前学習による合成データに基づくニューラル文法的誤り訂正システム 0.74
In Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 252–263. 建築教育応用におけるNLPの革新的利用に関する第14回ワークショップの開催にあたって
訳抜け防止モード: 14th Workshop on Innovative Use of NLP for Building Educational Applications に参加して 252-263頁。
0.81
Jiatao Gu and Xiang Kong. Jiatao GuとXiang Kong。 0.74
2020. Fully nonautoregressive neural machine translation: Tricks of the trade. 2020. 完全非自己回帰型ニューラルマシン翻訳:取引のトリック。 0.79
arXiv preprint arXiv:2012.15833. arXiv preprint arXiv:2012.15833 0.72
Jiatao Gu, Changhan Wang, and Junbo Zhao. Jiatao Gu, Changhan Wang, Junbo Zhao。 0.67
2019. Levenshtein transformer. 2019. レベンシュテイン変圧器 0.70
In Advances in Neural Information Processing Systems, pages 11181–11191. In Advances in Neural Information Processing Systems, page 11181–11191。 0.93
英語(論文から抽出)日本語訳スコア
Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, and Kentaro Inui. 金子正弘、三田正人、清野春、鈴木順、犬井健太郎。 0.44
2020. Encoder-decoder models can benefit from pre-trained masked language models in grammatical error correction. 2020. エンコーダ・デコーダモデルは文法的誤り訂正において事前訓練されたマスキング言語モデルの恩恵を受けることができる。 0.67
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4248– 4254. 58th Annual Meeting of the Association for Computational Linguistics』4248-4254頁。 0.64
Jungo Kasai, Nikolaos Pappas, Hao Peng, James Cross, and Noah A Smith. ジュンゴ・カサイ、ニコラオス・パパス、ホー・ペン、ジェームズ・クロス、ノア・A・スミス。 0.50
2020. Deep encoder, shallow decoder: Reevaluating the speed-quality arXiv preprint tradeoff in machine translation. 2020. Deep Encoder, shallow Decoder: 機械翻訳における速度品質のarXivプリプリントトレードオフの再評価。 0.79
arXiv:2006.10369. arxiv: 2006.10369。 0.28
Diederik P Kingma and Jimmy Ba. dieerik p kingmaとjimmy ba。 0.65
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov、Luke Zettlemoyer。 0.70
2019. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. 2019. bart: 自然言語の生成、翻訳、理解のためのシーケンスからシーケンスへの事前学習。 0.73
arXiv preprint arXiv:1910.13461. arXiv preprint arXiv:1910.13461 0.72
Yanyang Li, Ye Lin, Tong Xiao, and Jingbo Zhu. Yanyang Li、Ye Lin、Tong Xiao、Jingbo Zhu。 0.67
2021. An efficient transformer decoder with compressed sub-layers. 2021. 圧縮サブ層を有する効率的なトランスデコーダ 0.82
arXiv preprint arXiv:2101.00542. arXiv preprint arXiv:2101.00542 0.72
Jared Lichtarge, Chris Alberti, Shankar Kumar, Noam Shazeer, Niki Parmar, and Simon Tong. Jared Lichtarge, Chris Alberti, Shankar Kumar, Noam Shazeer, Niki Parmar, Simon Tong 0.72
2019. Corpora generation for grammatical error correction. 2019. 文法的誤り訂正のためのコーパス生成 0.72
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3291– 3301. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 3291–3301 0.74
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Eric Malmi, Sebastian Krause, Sascha Rothe, Daniil Mirylenka, and Aliaksei Severyn. Eric Malmi, Sebastian Krause, Sascha Rothe, Daniil Mirylenka, Aliaksei Severyn 0.69
2019. Encode, tag, realize: High-precision text editing. 2019. encode, tag, realize: 精度の高いテキスト編集。 0.83
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 5057–5068. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 5057–5068。 0.83
Tomoya Mizumoto, Mamoru Komachi, Masaaki Nagata, and Yuji Matsumoto. 水本具也、小町孫、永田正明、松本祐二。 0.40
2011. Mining revision log of language learning sns for automated japanese error correction of second language learners. 2011. 第二言語学習者の日本語誤り自動修正のための言語学習snsのマイニングリビジョンログ 0.82
In Proceedings of 5th International Joint Conference on Natural Language Processing, pages 147–155. 第5回自然言語処理国際共同会議の議事録147-155頁。 0.80
Hwee Tou Ng, Siew Mei Wu, Yuanbin Wu, Christian Hadiwinoto, and Joel Tetreault. Hwee Tou Ng, Siew Mei Wu, Yuanbin Wu, Christian Hadiwinoto, Joel Tetreault 0.68
2013. The CoNLL2013 shared task on grammatical error correction. 2013. CoNLL2013は文法的誤り訂正のタスクを共有した。 0.73
In Proceedings of the Seventeenth Conference on Computational Natural Language Learning: Shared Task, pages 1–12. 第17回計算自然言語学習会議:共有タスク, 1-12ページ 0.58
Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, and Oleksandr Skurzhanskyi. Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, Oleksandr Skurzhanskyi 0.61
2020. Gector–grammatical error correction: Tag, not rewrite. 2020. Gector–grammatical error correct: Tag, not rewrite。 0.86
arXiv preprint arXiv:2005.12592. arXiv preprint arXiv:2005.12592 0.72
Rico Sennrich, Barry Haddow, and Alexandra Birch. Rico Sennrich、Barry Haddow、Alexandra Birch。 0.64
2016. Neural machine translation of rare words with subword units. 2016. サブワード単位を用いたレアワードのニューラルマシン翻訳 0.79
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715– 1725. 第54回計算言語学会年次大会(Volume 1: Long Papers)において、1715-1725頁。 0.58
Felix Stahlberg and Shankar Kumar. フェリックス・シュタールバーグとシャンカル・クマール 0.37
2020. Seq2edits: Sequence transduction using span-level edit operaIn Proceedings of the 2020 Conference on tions. 2020. seq2edits: 2020 conference on tionsのspan-level edit operain proceedingsによるシーケンス変換。 0.82
Empirical Methods in Natural Language Processing (EMNLP), pages 5147–5159. Empirical Methods in Natural Language Processing (EMNLP)、5147-5159頁。 0.82
Mitchell Stern, Noam Shazeer, and Jakob Uszkoreit. Mitchell Stern、Noam Shazeer、Jakob Uszkoreit。 0.59
2018. Blockwise parallel decoding for deep autoregressive models. 2018. 深部自己回帰モデルに対するブロックワイド並列デコーディング 0.82
In NeurIPS. NeurIPSに登場。 0.80
Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Ilya Sutskever、Oriol Vinyals、Quoc V Le。 0.62
2014. Sequence to sequence learning with neural networks. 2014. ニューラルネットワークを用いたシーケンスからシーケンスへの学習。 0.76
arXiv preprint arXiv:1409.3215. arXiv preprint arXiv:1409.3215 0.71
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens、Zbigniew Wojna。 0.66
2016. Rethinking the inception architecture for computer vision. 2016. コンピュータビジョンのためのインセプションアーキテクチャを再考する。 0.77
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818–2826. Proceedings of the IEEE conference on computer vision and pattern recognition, page 2818–2826。 0.83
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。 0.63
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.74
cessing systems, pages 5998–6008. システム停止、5998-6008頁。 0.48
Zhaohong Wan, Xiaojun Wan, and Wenguang Wang. Zhaohong Wan, Xiaojun Wan, Wenguang Wang。 0.69
2020. Improving grammatical error correction with data augmentation by editing latent representation. 2020. 潜在表現の編集によるデータ拡張による文法的誤り訂正の改善 0.79
In Proceedings of the 28th International Conference on Computational Linguistics, pages 2202–2212. 第28回計算言語学国際会議紀要、2202-2212頁。 0.63
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V Le. Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov、Quoc V Le。 0.65
2019. Xlnet: Generalized autoregressive pretrainarXiv preprint ing for language understanding. 2019. xlnet: 言語理解のための一般化された自己回帰プレトレーナーxivプレプリントing。 0.67
arXiv:1906.08237. arXiv:1906.08237。 0.48
Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian Hadiwinoto, Raymond Hendy Susanto, and Christopher Bryant. Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian Hadiwinoto, Raymond Hendy Susanto, Christopher Bryant 0.73
2014. The conll-2014 shared task on grammatical error correction. 2014. conll-2014は文法的誤り訂正のタスクを共有した。 0.71
In Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task, pages 1–14. 18th conference on computational natural language learning: shared task, 1–14頁。 0.67
Helen Yannakoudakis, Ted Briscoe, and Ben Medlock. Helen Yannakoudakis、Ted Briscoe、Ben Medlock。 0.66
2011. A new dataset and method for automatically In Proceedings of the 49th angrading esol texts. 2011. 第49次esolテキストの手続きを自動で行うための新しいデータセットと方法。 0.80
nual meeting of the association for computational linguistics: human language technologies, pages 180–189. 計算言語学協会の年次会合:人間の言語技術、180-189ページ。 0.74
英語(論文から抽出)日本語訳スコア
Yi Zhang, Tao Ge, Furu Wei, Ming Zhou, and Xu Sun. Yi Zhang、Tao Ge、Furu Wei、Ming Zhou、Xu Sun。 0.64
2019. Sequence-to-sequence pre-training with data augmentation for sentence rewriting. 2019. 文書き換えのためのデータ拡張による逐次前学習 0.69
arXiv preprint arXiv:1909.06002. arXiv preprint arXiv:1909.06002 0.72
Yuanyuan Zhao, Nan Jiang, Weiwei Sun, and Xiaojun Wan. Yuanyuan Zhao, Nan Jiang, Weiwei Sun, Xiaojun Wan。 0.71
2018. Overview of the nlpcc 2018 shared task: Grammatical error correction. 2018. nlpcc 2018の共有タスクの概要: 文法的エラー修正。 0.77
In CCF International Conference on Natural Language Processing and Chinese Computing, pages 439–445. CCF International Conference on Natural Language Processing and Chinese Computing, page 439–445。 0.83
Springer. Wangchunshu Zhou, Tao Ge, Chang Mu, Ke Xu, Furu Wei, and Ming Zhou. Springer Wangchunshu Zhou, Tao Ge, Chang Mu, Ke Xu, Furu Wei, Ming Zhou。 0.62
2020. Improving grammatical error correction with machine translation pairs. 2020. 機械翻訳ペアによる文法的誤り訂正の改良 0.82
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 318–328. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 318–328。 0.89
A Hyper-parameters Hyper-parameters of training the Transformer for English GEC are listed in table 7. ハイパーパラメータ 英語 GEC 用 Transformer のトレーニングのハイパーパラメータが表7に記載されている。 0.71
The hyperparameters for Chinese GEC are the same with those of training from scratch. 中国のGECのハイパーパラメータは、スクラッチからトレーニングするのと同じである。 0.66
Model (Enc+Dec) Thread Beam=5 Greedy Aggressive model (enc+dec) thread beam=5 greedy aggressive 0.64
6+6 9+3 6+6 9+3 6+6 9+3 6+6 9+3 0.45
8 8 2 2 Speedup 1× 1.5× 1× 1.5× 8 8 2 2 スピードアップ 1× 1.5× 1× 1.5× 0.67
Speedup 1.6× 2.5× 2.1× 3.1× スピードアップ1.6×2.5×2.1×3.1× 0.36
Speedup 6.5× 8.0× 6.1× 7.6× スピードアップ 6.5× 8.0× 6.1× 7.6× 0.38
Table 8: The efficiency of the Transformer with different encoder and decoder depths in CoNLL-13 on CPU with 8 and 2 threads. 表8: 8スレッドと2スレッドのCPU上のCoNLL-13のエンコーダとデコーダの深さが異なるトランスフォーマーの効率性。 0.84
B CPU Efficiency latency and speedup of Table 8 shows total the Transformer with different encoder-decoder depth on an Intel® Xeon® E5-2690 v4 Processor(2.60GHz) with 8 and 2 threads12, respectively. BCPUのレイテンシとテーブル8のスピードアップは、Intel® Xeon® E5-2690 v4プロセッサ(2.60GHz)と8スレッドと2スレッドでエンコーダとデコーダの深さが異なるトランスフォーマーを示している。 0.68
Our approach achieves a 7× ∼ 8× online inference speedup over the Transformer-big baseline on CPU. 本手法は,cpu上のtransformer-bigベースライン上で7×8×オンライン推論の高速化を実現する。 0.54
Train From Scratch スクラッチからの列車 0.69
Values Transformer (big) (Vaswani et al , 2017) 60 4 Nvidia V100 GPU 5120 4 Adam (β1=0.9, β2=0.98, =1 × 10−8) (Kingma and Ba, 2014) [3 × 10−4 , 5 × 10−4] inverse sqrt 4000 0.0 label smoothed cross entropy (label-smoothing=0.1) (Szegedy et al , 2016) [0.3, 0.4, 0.5] 価値 Transformer (big) (Vaswani et al , 2017) 60 4 Nvidia V100 GPU 5120 4 Adam (β1=0.9, β2=0.98, sh=1 × 10−8) (Kingma and Ba, 2014) [3 × 10−4 , 5 × 10−4] inverse sqrt 4000 0.0 label smoothed cross entropy (label-smoothing=0.1) (Szegedy et al , 2016) [0.3, 0.4, 0.5] 0.74
Pretrain Configurations Model Architecture 予行 構成 モデルアーキテクチャ 0.66
Number of epochs Devices Max tokens per GPU Update Frequency Optimizer GPU更新周波数最適化器当たりのエポックデバイス数 Maxトークン 0.81
Learning rate Learning rate scheduler Warmup Weight decay Loss Function 学習速度 学習速度 スケジューラ ウォームアップ 軽量減衰損失関数 0.72
Dropout Number of epochs Devices Update Frequency Learning rate Warmup Dropout ドロップアウト epochsデバイス数、頻度学習率ウォームアップドロップアウトを更新 0.70
Number of epochs Devices Update Frequency Learning rate Warmup Dropout epochsデバイス数、頻度学習率ウォームアップドロップアウトを更新 0.76
Fine-tune 10 8 Nvidia V100 GPU 8 3 × 10−4 8000 0.3 ファインチューン 108 Nvidia V100 GPU 8 3 × 10−4 8000 0.3 0.59
60 4 Nvidia V100 GPU 4 3 × 10−4 4000 0.3 604 Nvidia V100 GPU 4 3 × 10−4 4000 0.3 0.82
Table 7: Hyper-parameters values of training from scratch, pretraining and fine-tuning. 表7: スクラッチ、プレトレーニング、微調整によるトレーニングのハイパーパラメータ値。 0.73
12We set OMP NUM THREADS to 8 or 2. 12MP NUM THREADSを8または2に設定した。 0.69
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。