論文の概要、ライセンス

# (参考訳) 抽象的要約蒸留における注意温度 [全文訳有]

Attention Temperature Matters in Abstractive Summarization Distillation ( http://arxiv.org/abs/2106.03441v2 )

ライセンス: CC BY 4.0
Shengqiang Zhang, Xingxing Zhang, Hangbo Bao, Furu Wei(参考訳) 最近の抽象的テキスト要約の進歩は、計算コストが高い大きな事前学習されたシーケンス・ツー・シーケンストランスフォーマーモデルに大きく依存している。 本稿では,これらの大規模モデルをより高速な推論と最小性能損失のために,より小さなモデルに蒸留することを目的とする。 擬似ラベル法はシーケンス・ツー・シーケンス・モデル蒸留でよく用いられる。 本稿では,変圧器の注意温度を簡易に操作することで,学生モデルの学習が容易になることを示す。 3つの要約データセットを用いた実験により,提案手法がバニラ擬似ラベルベース手法を一貫して改善することを示す。 また,学生が作成した疑似ラベルと要約が,より短く,より抽象的であることもわかった。 コードとモデルを一般公開する予定です。

Recent progress of abstractive text summarization largely relies on large pre-trained sequence-to-sequence Transformer models, which are computationally expensive. This paper aims to distill these large models into smaller ones for faster inference and minimal performance loss. Pseudo-labeling based methods are popular in sequence-to-sequence model distillation. In this paper, we find simply manipulating attention temperatures in Transformers can make pseudo labels easier to learn for student models. Our experiments on three summarization datasets show our proposed method consistently improves over vanilla pseudo-labeling based methods. We also find that both the pseudo labels and summaries produced by our students are shorter and more abstractive. We will make our code and models publicly available.
公開日: Tue, 8 Jun 2021 03:09:45 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Attention Temperature Matters in Abstractive 抽象論における注意温度問題 0.63
Summarization Distillation Shengqiang Zhang ∗† Peking University 要約蒸留 重慶章禅 北京大学 0.61
sq.zhang@pku.edu.cn sq.zhang@pku.edu.cn 0.47
Xingxing Zhang∗, Hangbo Bao†, Furu Wei Xingxing Zhang∗, Hangbo Bao', Furu Wei 0.81
Microsoft Research Asia Microsoft Research Asia 0.85
{xizhang,t-habao,fuwe i}@microsoft.com xizhang,t-habao,fuwe i}@microsoft.com 0.87
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
2 v 1 4 4 3 0 2 v 1 4 4 3 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Recent progress of abstractive text summarization largely relies on large pretrained sequence-to-sequence Transformer models, which are computationally expensive. 概要 最近の抽象的テキスト要約の進歩は、計算コストが高い大きな事前学習されたシーケンス・ツー・シーケンストランスフォーマーモデルに大きく依存している。 0.46
This paper aims to distill these large models into smaller ones for faster inference and minimal performance loss. 本稿では,これらの大規模モデルをより高速な推論と最小性能損失のために,より小さなモデルに蒸留することを目的とする。 0.54
Pseudo-labeling based methods are popular in sequence-to-sequence model distillation. 擬似ラベル法はシーケンス・ツー・シーケンス・モデル蒸留でよく用いられる。 0.41
In this paper, we find simply manipulating attention temperatures in Transformers can make pseudo labels easier to learn for student models. 本稿では,変圧器の注意温度を簡易に操作することで,学生モデルの学習が容易になることを示す。 0.73
Our experiments on three summarization datasets show our proposed method consistently improves over vanilla pseudo-labeling based methods. 3つの要約データセットを用いた実験により,提案手法がバニラ擬似ラベルベース手法を一貫して改善することを示す。
訳抜け防止モード: 3つの要約データセットの実験結果 提案手法は,バニラ擬似ラベル法よりも常に改善する。
0.67
We also find that both the pseudo labels and summaries produced by our students are shorter and more abstractive. また,学生が作成した疑似ラベルと要約が,より短く,より抽象的であることもわかった。 0.64
We will make our code and models publicly available. コードとモデルを一般公開する予定です。 0.58
1 Introduction Automatic document summarization is the task of rewriting a long document into its shorter form while still retaining its most important contents. 1 はじめに 自動文書要約は、長い文書を最も重要な内容を保持しながら短い形式に書き換える作業である。 0.70
In the literature, there are mainly two kinds of methods for summarization: extractive summarization and abstractive summarization [22]. 文献では,抽出的要約と抽象的要約[22]という2種類の要約方法が主に存在する。 0.71
In this work, we focus on abstractive summarization, which is viewed as a sequence-to-sequence (Seq2Seq) learning problem, since recent abstractive models outperform their extractive counterparts and can produce more concise summaries [26, 17, 42, 19]. 本稿では,最近の抽象モデルが抽出型モデルよりも優れており,より簡潔な要約[26,17,42,19]を生成することができるため,シーケンスからシーケンスへの(seq2seq)学習問題と見なされる抽象的要約に焦点を当てる。 0.75
Recent progress of abstractive summarization largely relies on large pre-trained Transformer models [26, 17, 42, 19, 2]. 抽象的な要約の最近の進歩は、大きく訓練されたトランスフォーマーモデル [26, 17, 42, 19, 2] に大きく依存している。
訳抜け防止モード: 抽象要約の最近の進歩は, 大規模前訓練変圧器モデル[26]に大きく依存している。 17 , 42 , 19 , 2 ] .
0.71
With these extremely large models, we can obtain state-of-the-art summarization results, but they are slow for online inference, which makes them difficult to be used in the production environment even with cutting-edge hardware. このような非常に大きなモデルでは最先端の要約結果が得られるが、オンライン推論では遅いため、最先端のハードウェアでも運用環境での使用は困難である。 0.55
This paper aims to distill these large Transformer summarization models into smaller ones with minimal loss in results. 本稿では,これらの大規模変圧器の要約モデルを,最小限の損失でより小さなモデルに蒸留することを目的とする。 0.52
Knowledge distillation is a class of methods that leverage the output of a (large) teacher model to guide the training of a (small) student model. 知識蒸留(英: knowledge distillation)は、(大きな)教師モデルの出力を利用して(小さな)生徒モデルのトレーニングを導く方法の1つである。 0.77
In classification tasks, it is typically done by minimizing the distance between the teacher and student predictions [12]. 分類課題では,教師と生徒の予測距離を最小化することが一般的である [12]。
訳抜け防止モード: 分類タスクでは、通常はそれが実行される 教師と生徒の予測距離を最小化する[12]
0.84
An effective distillation method for Seq2Seq models is called pseudo-labeling [15], where the teacher model generates pseudo summaries for all documents in the training set and the resulting document-pseudo-summ ary pairs are used to train the student model. Seq2Seqモデルの効果的な蒸留方法は擬似ラベル [15] と呼ばれ、教師モデルはトレーニングセット内のすべての文書に対して擬似要約を生成し、その結果の擬似助詞対を用いて学生モデルを訓練する。 0.74
In this paper, we argue that attention distributions of a teacher model might be too sharp. 本稿では,教師モデルの注意分布があまりにも鋭いのではないかと論じる。 0.81
As a result, pseudo labels generated from it are sub-optimal for student models. その結果、学生モデルに擬似ラベルが準最適となる。 0.64
In the summarization task, we observed that 1) pseudo summaries generated from our teacher model copy more continuous text spans from the original document than reference summaries (56% 4-grams in pseudo summaries and 15% 4-grams in reference summaries are copied from their original documents on CNN/DailyMail dataset); 要約タスクでは,(1)教師モデルから生成された疑似要約は,参照要約よりも原文書からの連続的なテキストスパンをコピーする(疑似要約では56%,参照要約では15%がcnn/dailymailデータセットの原文書からコピーされる)。 0.69
∗Equal contribution. †Work done during the authors’ internships at Microsoft Research Asia. 等しく貢献する。 Microsoft Research Asiaでの著者のインターンシップ中に行われた。 0.63
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
Table 1: Examples of reference summary ([Reference]), pseudo summary from the teacher model ([PseudoLBL]) and pseudo summary from the teacher with smoothed attention ([Smoothed ]). 表1:参照要約の例(参照)、教師モデルからの擬似要約(PseudoLBL)、スムーズな注意を伴う教師からの擬似要約(Smoothed)。
訳抜け防止モード: 表1:参照概要の例( [ Reference ] ) 教師モデルからの擬似要約 ( [ PseudoLBL ] ] そして、スムーズな注意を向けた教師からの擬似要約([Smoothed ]])。
0.69
Text spans in bold are copied spans (with more than four words) from the original document. 太字のテキストスパンは、オリジナルの文書からスパン(4語以上)をコピーしたものである。 0.73
[Reference]: Mentally ill inmates in Miami are housed on the “forgotten floor” </s> Judge Steven Leifman says most are there as a result of “avoidable felonies” </s> While CNN tours facility, patient shouts: “I am the son of the president” </s> Leifman says the system is unjust and he’s fighting for change. マイアミの精神疾患の受刑者は「forgotten floor」に収容されている </s> 判事のsteven leifman氏は、ほとんどが「避けられる重罪」の結果であると述べている </s> cnnツアーの際、患者は「私は大統領の息子だ」と叫んだ。 0.60
[PseudoLBL]: Mentally ill inmates in Miami are housed on the "forgotten floor" of a pretrial detention facility. [プソドルブル]: マイアミの精神疾患の受刑者は、裁判前の拘留施設の"forgotten floor"に収容される。 0.79
</s> Judge Steven Leifman says about one-third of all people in Miami-Dade county jails are mentally ill. </s> He says they face drug charges or charges of assaulting an officer, which are “avoidable felonies” </s> He says the arrests often result from confrontations with police, which exacerbate their illness. スティーブン・レイフマン判事は、マイアミ・デイド郡刑務所の約3分の1が精神疾患だと述べ、警官を暴行したとして麻薬の容疑や容疑に直面していると述べた。
訳抜け防止モード: /s>スティーブン・レイフマン判事は言う。 マイアミの人口の3分の1を占めるデイド郡監獄は精神疾患である。 薬物乱用や警官暴行の罪で起訴される。 それらは“避けられる重罪”</s>だ、と彼は言う。 逮捕は、しばしば警察との対立から引き起こされ、その病気が悪化する。
0.69
[Smoothed ]: Mentally ill inmates in Miami are housed on the “forgotten floor” </s> Judge Steven Leifman says they are there because of “avoidable felonies” </s> He says many of them are in jail for drug or assault charges. 連邦最高裁のスティーブン・レイフマン判事は、「避けられる重罪」が原因で、彼らの多くは麻薬や暴行罪で刑務所に収監されていると語った。
訳抜け防止モード: 【平静】 : マイアミの精神障害者収容所は「忘れられた床」</sに収容されている スティーブン・レイフマン判事は、「避けられるフェロニー」 < /s 多くは麻薬や暴行の容疑で投獄されている。
0.69
</s> He says the system is unjust and he’s trying to change it. </s> システム自体が不正であり,変更を試みているという。 0.72
2) pseudo summaries tend to summarize the leading part of a document (measured on CNN/DailyMail, 74% of sentences in pseudo summaries and 64% of sentences in reference summaries are from the leading 40% sentences in the original documents). 2) 擬似要約は,文書の先頭部分(CNN/DailyMailで測る場合,擬似要約文の74%,参考要約文の64%は原文の40%)を要約する傾向にある。 0.58
We obtain the two numbers above by matching each sentence in a summary with the sentence in its original document that can produce maximum ROUGE score between them. 上述の2つの数字は、要約中の各文と元の文書中の文とを一致させ、それらの間に最大ROUGEスコアを生成する。 0.63
We call the two biases above the copy bias and the leading bias. コピーバイアスとリードバイアスより上の2つのバイアスと呼んでいます。 0.66
We can see from the example in Table 1 that a large portion of text spans in the pseudo summary [PseudoLBL] are copied. 表1の例から、擬似要約[PseudoLBL]にある大量のテキストがコピーされていることが分かる。 0.62
There are a total of 42 sentences in the original document. 原文には合計42通の文章がある。 0.49
The reference summary [Reference] contains information from the first 36 sentences, while the pseudo summary [PseudoLBL] contains information from the first 16 sentences. 参照要約[参照]は、最初の36文からの情報を含み、擬似要約[PseudoLBL]は、最初の16文からの情報を含む。 0.67
Attention modules are the most crucial components in Transformers [36] and we therefore visualize the cross attention weights of the above example3 (see the graph on the left in Figure 1). 注意モジュールは Transformer [36] で最も重要なコンポーネントであり、上記の例3の横断的な注意重みを可視化する(図1の左のグラフを参照)。 0.79
We observe that attention weights form three “lines”, which indicates very time the decoder predicts the next word, its attention points to the next word in the input document. 注意重みは3つの“行”を形成し、デコーダが次の単語を予測するタイミングを示し、その注意が入力ドキュメントの次の単語を指し示す。 0.69
That may be the reason why multiple continuous spans of text are copied. これが、複数の連続したテキストがコピーされる理由かもしれない。 0.69
The second thing we observe is that all high-value attention weights concentrate on the first 200 words in the input document, which explains the leading bias. 2つ目は、すべての高価値な注意重みが入力ドキュメントの最初の200語に集中していることです。
訳抜け防止モード: 2つ目は、すべての値の注意重みが入力ドキュメントの最初の200単語に集中していることです。 先導バイアスを説明します
0.69
In either case, the attention distribution is too sharp (i.e., attention weights of the next word position or the leading part is much larger than other positions), which means our teacher model is over-confident. いずれの場合も、注意分布はシャープすぎる(すなわち、次の単語の位置や先頭部分の注意重みは他の位置よりもはるかに大きい)。
訳抜け防止モード: いずれの場合も、注意分布はあまりに鋭い(すなわち)。 次の単語の位置または先頭部分の注意重みは他の位置よりもはるかに大きい つまり、教師モデルは終わったということです。
0.74
Based on the observations above, we propose a simple method called PLATE (as shorthand for Pseudo-labeling with Larger Attention TEmperature) to smooth attention distributions of teacher models. 本稿では,教師モデルの注意分布を円滑に把握するためのPLATE(Pseudo-labelin g with Larger Attention TEmperature)という簡単な手法を提案する。 0.78
Specifically, we re-scale attention weights in all attention modules with a higher temperature, √ which leads to softer attention distributions. 具体的には、より高温の全ての注目モジュールにおける注意重みを再スケールし、より軟らかい注意分布をもたらす。 0.68
Indeed, by using a higher attention temperature (from 96), the copy bias is less severe (the ratio of copied 4-gram is reduced to 50% from 56%), as well as the leading bias (portion of sentences in pseudo summaries describing the leading 40% sentences in the document is reduced to 70% from 74%). 実際、高い注意温度(96から)を用いることで、コピーバイアス(コピー4グラムの比率を56%から50%に減少させる)とリードバイアス(文書中の40%の文章を表わす擬似要約の文のポートは74%から70%に減少する)が軽減される。 0.70
It is also shown in Table 1 that the pseudo summary with smoothed attention ([Smoothed ]) copies less from the original document and it summarizes the first 36 sentences. また、表1に示すように、平滑な注意(スムース)を持つ擬似要約は、原文書からコピーを少なくし、最初の36文を要約する。 0.70
Figure 1 also shows the effect of using higher attention temperature. 図1はまた、より高い注意温度を使うことの効果を示している。 0.67
There are shorter lines with high attention weights and positions of high attention weights extend to the first 450 words. 注意重みの高い短い線があり、注意重みの高い位置は最初の450語まで伸びている。 0.73
Less copy bias in pseudo summaries encourages student models to be more abstractive, while less leading bias in pseudo summaries encourages our student models to take advantage of longer context in documents. 疑似要約におけるコピーバイアスの低減は、学生モデルをより抽象的になるように促す一方で、擬似要約におけるリードバイアスの低減は、学生モデルがドキュメントの長いコンテキストを活用することを奨励する。
訳抜け防止モード: 擬似要約におけるコピーバイアスの低減 より抽象的な生徒モデルです 疑似要約のバイアスは少ないが 学生モデルには ドキュメントの長いコンテキストを 活用するよう促す
0.76
Experiments on CNN/DailyMail, XSum, and New York Times datasets with student models of different sizes show our simple distillation method consistently outperforms vanilla pseudo-labeling based methods. CNN/DailyMail、XSum、New York Timesのデータセットと異なるサイズの学生モデルによる実験は、我々の単純な蒸留法がバニラ擬似ラベル法を一貫して上回っていることを示している。
訳抜け防止モード: 異なるサイズの学生モデルを用いたcnn/dailymail, xsum, new york timesデータセットの実験 簡易蒸留法はバニラ擬似ラベル法を一貫して上回っている。
0.68
With our method, we empirically find that both pseudo summaries generated by our teacher models and summaries generated by our student models are shorter and more abstractive, which matches the goal of abstractive summarization. 提案手法では,教師モデルによる擬似要約と学生モデルによる擬似要約はともに,より短く抽象的であり,抽象的な要約の目標と一致することを実証的に見出した。 0.75
64 to √ 3We use cross attention because we can see how words in documents are selected during generation. 64~ √ 3 文書中の単語が世代毎にどのように選択されるかがわかるため,クロスアテンションを利用する。 0.71
2 2 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Visualization of teacher cross attention weights when generating pseudo labels with normal (left) and smoothed (right) attention weights. 図1:普通(左)と平滑(右)の注意重み付き擬似ラベルを生成する際の教師の注意重みの可視化。 0.82
2 Related work Large pre-trained Seq2Seq Transformer models largely improve results for generation tasks including text summarization [34, 17, 2, 26, 42]. 2関連作品 トレーニング済みのSeq2Seq Transformerモデルでは,[34, 17, 2, 26 42] テキスト要約などの生成タスクの結果が大きく改善されている。 0.71
These models are pre-trained using unsupervised text-to-text objectives. これらのモデルは教師なしのテキストからテキストへの目的を使って事前学習される。 0.35
For example, T5 [26] is pre-trained by predicting corrupted text spans. 例えば、T5[26]は、破損したテキストスパンを予測することによって事前訓練される。 0.55
BART [17] employs denoising auto-encoding objectives such as text infilling and sentence permutation during its pre-training. BART[17]は、事前学習中にテキストの埋め込みや文の置換などの自動エンコーディングの目的を通知する。
訳抜け防止モード: BART [ 17 ] 採用 denoising auto - 事前トレーニング中にテキストの入力や文の置換などの目的を符号化する。
0.64
The pre-training objective of PEGASUS [42] is tailored for the summarization task, which predicts the most “summary worthy” sentences in a document. PEGASUS[42]の事前学習目的は要約タスクに合わせたもので、文書の中で最も“同等”な文を予測する。 0.65
These models achieve strong results in summarization but are slow during inference. これらのモデルは要約において強い結果をもたらすが、推論では遅い。 0.57
Our method can make them faster. 我々の方法はそれらを速くすることができる。 0.57
In knowledge distillation, a teacher model can be used to help the training of a student model. 知識蒸留では、学生モデルの訓練を支援するために教師モデルを使用することができる。 0.81
In addition to learning from gold labels in the training set, student models can learn from the soft targets [1, 12], intermediate hidden states [28], attentions [41, 38], target output derivatives [3] of teacher models. トレーニングセットにおけるゴールドラベルからの学習に加えて、学生モデルは教師モデルのソフトターゲット[1, 12]、中間隠れ状態[28]、注意[41, 38]、目標出力デリバティブ[3]から学習することができる。 0.69
Recent work for distillation of pre-trained Transformers (e g , DistilBERT [30], TinyBERT [13], MobileBERT [35], BERT-of-Theseus [40], MINILM [38]) focuses on natural language understanding tasks such as GLUE [37] or SQuAD [27] benchmarks. 近年, GLUE [37] や SQuAD [27] ベンチマークなどの自然言語理解タスクに重点を置いて, 事前学習したトランスフォーマー(例えば DistilBERT [30], TinyBERT [13], MobileBERT [35], BERT-of-theseus [40], MINILM [38])の蒸留作業を行っている。 0.90
Most methods above are designed for classification models. 上記の方法の多くは分類モデルのために設計されている。 0.56
Distillation methods of Seq2Seq models are different. Seq2Seqモデルの蒸留方法が異なる。 0.74
In Seq2Seq learning tasks such as summarization, we can apply distillation methods above to each step of sequence model predictions. 要約のようなseq2seq学習タスクでは、上記の蒸留法をシーケンスモデル予測の各ステップに適用することができる。 0.73
However, the sequence-level knowledge of teacher models is not well utilized. しかし,教師モデルのシーケンスレベルの知識は十分に活用されていない。 0.68
Therefore, Kim and Rush [15] introduce a sequence-level knowledge distillation method (i.e., pseudo-labeling), where a student model is trained with pseudo labels generated by the teacher model using beam search decoding. そこで,kim と rush [15] はシーケンスレベルの知識蒸留法(擬似ラベル法)を導入し,教師モデルによって生成された擬似ラベルをビーム探索復号を用いて学習する。 0.84
Kim and Rush [15] and later work [14, 9, 5] show pseudo-labeling achieves competitive performance for Seq2Seq tasks such as machine translation. Kim and Rush [15] and later work [14, 9, 5] shows pseudo-labeling makes compete performance for Seq2Seq tasks such as machine translation。 0.89
Shleifer and Rush [33] propose the shrink and fine-tune (SFT) approach for pre-trained summarization distillation, which re-finetunes a teacher model with some layers removed, and they show SFT outperforms pseudo-labeling and a modification of direct knowledge distillation [13] on one of their datasets, but not others. Shleifer と Rush [33] は,SFT が擬似ラベル処理および直接知識蒸留 [13] をデータセットの1つで改善するのに対し,SFT は,教師モデルにいくつかの層を除去して再ファインチュニングする,事前学習した要約蒸留のための縮小・微細チューン (SFT) アプローチを提案する。 0.73
Our method, which builds on top of pseudo-labeling, is conceptually simple and improves pseudo-labeling across different summarization datasets. 擬似ラベルの上に構築する手法は概念的にシンプルであり,異なる要約データセット間の擬似ラベルを改善する。 0.65
There is an interesting line of work called self-distillation or self-training, where the size of the student model is identical to the size of the teacher model. 学生モデルのサイズが教師モデルのサイズと同一である自己蒸留(Self-distillation)や自己学習(Self-training)と呼ばれる興味深い作品がある。 0.74
Born-Again network [8] trains a serial of student models (same size as the teacher model) using the previous student model as the teacher and born-again network [8] は,前者モデルと教師および教師モデルを用いて,学生モデル(教師モデルと同じサイズ)の連続を訓練する。 0.80
3 010203040506070Token index in summary0100200300400 500Token index in documentAttention Temperature: 64010203040506070Tok en index in summary0100200300400 500Attention Temperature: 960.050.100.150.20 3 01020404040406070 Token index in summary 0100200300400500 Token index in documentAttention temperature: 64010204040406070 Token index in summary 0100200400400500Atte ntion temperature: 960.050.100.150.20 0.71
英語(論文から抽出)日本語訳スコア
the final student is distilled with an ensemble of all available models. 最終生徒は 利用可能な全てのモデルの アンサンブルで蒸留されています 0.69
Xie et al [39] propose noisy student training, which injects input and model noise during student model training and improves image classification performance on ImageNet [4]. Xie et al [39] は、学生モデルトレーニング中に入力とモデルノイズを注入し、ImageNet [4] 上の画像分類性能を改善するノイズの多い学生訓練を提案する。 0.77
Liu et al [20] and He et al [10] observe that adding noise to teacher and/or student models during self-distillation can improve Seq2Seq tasks such as machine translation and summarization. Liu et al [20] と He et al [10] は、自己蒸留中に教師や学生モデルにノイズを加えることで、機械翻訳や要約などのSeq2Seqタスクを改善することを観察している。
訳抜け防止モード: Liu et al [20 ] and He et al [10 ] 自己蒸留中に教師や学生モデルにノイズを加える 機械翻訳や要約といったSeq2Seqタスクを改善することができる。
0.77
Our method can also be applied in self-distillation and can potentially be combined with the self-distillation methods above. また, 本法は自己蒸留にも適用でき, 上記の自己蒸留法と組み合わせることも可能である。 0.68
3 Summarization distillation In this section, we introduce our distillation method PLATE. 3 留分蒸留 本稿では,蒸留法プレートについて紹介する。 0.67
3.1 Transformer based abstractive summarization 3.1 トランスフォーマーに基づく抽象要約 0.69
Abstractive summarization aims to rewrite a document into its shorter form (i.e., summary), which is a typical Seq2Seq learning problem (note that the input and output are all sequences of tokens). 抽象的な要約は、文書を短い形式(すなわち要約)に書き換えることを目的としており、これは典型的なSeq2Seq学習問題である(入力と出力がすべてトークンのシーケンスであることに注意)。 0.70
We adopt the Seq2Seq Transformer [36] model. Seq2Seq Transformer [36]モデルを採用しています。 0.68
Given a document X = (x1, x2, . 文書 X = (x1, x2, )。 0.82
. . , x|X|) and its gold summary Y = (y1, y2, . . . , x|X|) および金の要約 Y = (y1, y2, )。 0.80
. . , y|Y |), we estimate the following conditional probability: . . , y|y |) 次の条件付き確率を推定する。 0.82
p(Y |X; θ) = p(Y |X; θ) = 0.94
p(yt|y<t, X; θ) p(yt|y<t, X; θ) 1.00
(1) |Y |(cid:89) (1) |Y |(cid:89) 0.82
t=1 | ˆY |(cid:88) t=1。 (cid:88) 0.53
t=1 where θ is the model parameter and y<t stands for all tokens before position t (i.e., (y1, y2, . t=1。 θ はモデルパラメータであり、y<t は位置 t の前にすべてのトークンを表す(つまり (y1, y2, )。 0.65
. . , yt−1)). . . , yt−1)。 0.86
The Seq2Seq Transformer model can be trained by minimizing the negative log-likelihood of gold document-summary pairs: Seq2Seq Transformerモデルは、金のドキュメント-サマリーペアの負のログ類似度を最小化することでトレーニングすることができる。
訳抜け防止モード: seq2seqトランスフォーマーは 負のログ - 金の文書の可能性 - 要約ペアの最小化。
0.59
(2) LG(θ) = − 1 where |Y | is the number of tokens in summary Y . (2) LG(θ) = − 1 ここで |Y | は要約 Y のトークンの数である。 0.81
|Y | log p(Y |X; θ) |y | log p(y |x; θ) 0.91
3.2 Distillation with pseudo labels 3.2 擬似ラベルによる蒸留 0.68
Knowledge distillation refers to the task of transferring knowledge of a large teacher model (or a group of large teacher models) into a small student model. 知識蒸留(英: knowledge distillation)とは、大きな教師モデル(または大きな教師モデルのグループ)の知識を小さな生徒モデルに移す作業である。 0.76
In classification tasks, it is typically done by minimizing the cross entropy loss between the student and teacher predictions [12]. 分類タスクでは、通常、生徒と教師の予測の間のクロスエントロピー損失を最小化することによって行われる [12]。
訳抜け防止モード: 分類タスクでは、通常はそれが実行される 生徒と教師の予測におけるクロスエントロピー損失の最小化 [12]
0.86
It is possible to apply the distillation method above to Seq2Seq learning tasks by distilling the token distribution of a teacher step by step. 教師のトークン分布を段階的に蒸留することにより、上記の蒸留方法をseq2seq学習タスクに適用することができる。 0.78
However, to imitate teacher predictions at the sequence level, in Seq2Seq learning tasks such as machine translation, pseudo-labeling is usually employed for knowledge distillation [15]. しかし, 機械翻訳などのseq2seq学習タスクでは, 教師の予測を列レベルで模倣するために, 普通, 擬似ラベルが知識蒸留に使用される [15]。 0.78
Kim and Rush [15] also shows the sequence-level pseudo-labeling based method obtains better performance than its token-level counterpart. Kim and Rush [15] は、シーケンシャルレベルの擬似ラベルに基づく手法がトークンレベルの手法よりも優れた性能を得ることを示す。 0.62
Specifically, suppose we have a document X, and ˆY = (ˆy1, ˆy2, . 具体的には、x の文書と (y1, sy2, ) と仮定する。 0.78
. . , ˆy| ˆY |) is a pseudo summary generated by a teacher model using beam search. . . は、ビーム探索を用いて教師モデルによって生成された疑似要約である。 0.80
The student can be trained by minimizing the negative log-likelihood of document-to-pseudo-s ummary pairs. 学生は、文書対総和対の負のログライクさを最小化することで訓練することができる。 0.52
LPL(θ) = − 1 | ˆY | LPL(θ) = − 1 | >Y | 0.90
log p(ˆyt|ˆy<t, X; θ) log p(\yt|\y<t, x; θ) 0.84
(3) Strictly, all possible pseudo summaries from X should be taken into account. (3) 厳密には、X からの全ての疑似要約を考慮に入れなければならない。 0.71
Unfortunately, the computational cost is prohibitive. 残念ながら、計算コストは禁じられている。 0.69
We therefore use a single sample ˆY (which takes a large portion of probability mass from the teacher) instead as in Kim and Rush [15]. そのため、kim や rush [15]のように、1つのサンプル sy (教師の確率質量の大部分を取る) を代わりに使用します。 0.75
3.3 Re-scaling attention temperatures 3.3 再スケーリング注意温度 0.68
Both our teacher and student models are Seq2Seq Transformer models. 教師モデルと学生モデルの両方がSeq2Seq Transformerモデルです。 0.72
The core part of a Transformer model is the attention module: トランスフォーマーモデルの中核となる部分は注意モジュールです。 0.63
Attention(Q, K, V ) = softmax( 注意(Q, K, V) = Softmax() 0.83
QK T τ )V (4) QK T τ )V (4) 0.85
4 4 0.85
英語(論文から抽出)日本語訳スコア
√ √ √ √ d (d is the hidden dimension size of that attention head). √ √ √ √ d (d はその注意ヘッドの隠れた寸法の大きさ)。 0.83
where Q, K, V are linear projections of hidden states of a layer and τ is the temperature of the attention module which is usually Our distillation method PLATE works as follows. ここでは、Q, K, V は層の隠れ状態の線形射影であり、τ は注意モジュールの温度であり、これは通常、PLATE の蒸留法である。 0.68
Assume we have a teacher model trained with d. When generating pseudo labels from the teacher with beam search, we use a higher attention τ = temperature and set τ = λ d where λ > 1 (λ is the attention temperature coefficient). ビームサーチで教師から擬似ラベルを生成する場合、より高い注意 τ = 温度を使い、λ > 1 (λ は注目温度係数) で τ = λ d をセットする。
訳抜け防止モード: dで訓練された教師モデルがあると仮定する。ビームサーチを用いて教師から擬似ラベルを生成する場合。 より高い注意 τ = 温度と、λ > 1 (λ は注目温度係数 ) の集合 τ = λ d を用いる。
0.89
Note that we only change the attention temperature of the teacher during inference time. ここでは,教師の注意温度を推定時間にのみ変化させることに留意する。 0.71
When we train our student model with pseudo labels, we still use a normal temperature (i.e., τ = d). 学生モデルを擬ラベルで訓練する際には、通常の温度(τ = d)を用いる。
訳抜け防止モード: 学生モデルを擬似ラベルでトレーニングする場合、私たちはまだ通常の温度(すなわち、)を使用します。 τ = d )。
0.78
We find that adjusting the attention temperature of the student does not work. 学生の注意温度の調整は効果がないことがわかった。 0.61
Probably because the student can easily adapt to the scaled attention temperature during training. おそらく、生徒はトレーニング中の注意温度のスケールに容易に適応できるからです。 0.77
We find λ = 1.5 or λ = 2.0 usually works well in practice. λ = 1.5 または λ = 2.0 は通常はうまく機能する。 0.84
To encourage teacher models to generate pseudo labels with more diversity, we further propose to use a random λ for each input document (λ ∼ U [a, b]). 教師モデルがより多様性のある擬似ラベルを生成するように促すため、各入力文書(λ > U [a, b])にランダムなλを使うことも提案する。 0.83
Note that U [a, b] is a uniform distribution and we typically set a = 1.0 and b = 2.0. U[a, b] は一様分布であり、典型的には a = 1.0 と b = 2.0 を定める。 0.80
4 Experiments 4.1 Datasets 4つの実験 4.1 データセット 0.59
We conduct our experiments on three popular document summarization datasets, which are CNN/DailyMail [11], XSum [21], and New York Times [29]. CNN/DailyMail [11], XSum [21], New York Times [29] の3つの一般的なドキュメント要約データセットで実験を行った。 0.74
CNNDM: The CNN/DailyMail dataset (CNNDM; 11) contains online news articles from the CNN and DailyMail websites paired with their associated highlights as reference summaries. CNNDM: CNN/DailyMailデータセット(CNNDM; 11)には、CNNとDailyMailのウェブサイトのオンラインニュース記事と、関連するハイライトをリファレンスサマリとして組み合わせている。 0.73
We follow the standard pre-processing steps described in See et al [31], Liu and Lapata [19]4. 我々は、See et al [31], Liu and Lapata [19]4で記述された標準的な前処理ステップに従う。 0.77
The resulting numbers of document-summary pairs for training, validation, and test are 287,227, 13,368 and 11,490, respectively. その結果、トレーニング、検証、テストのための文書と要約のペアは、それぞれ287,227、13,368、11,490である。 0.55
XSum: The XSum dataset is collected by harvesting online articles form the BBC with single sentence summaries, which is professionally written. XSum: XSumデータセットは、専門的に書かれた1文の要約でBBCのオンライン記事を収集することで収集される。 0.73
The summaries are extremely abstractive. 要約は非常に抽象的である。 0.59
We use the official splits of Narayan et al [21]. 奈良柳らの官用分断[21]を用いる。 0.41
There are 204,045 articles for training, 11,332 articles for validation and 11,334 articles for test. トレーニング用204,045記事、検証用11,332記事、テスト用11,334記事がある。
訳抜け防止モード: 研修用204,045件 検証用11,332件 テスト用の記事は11,334件
0.79
NYT: The New York Times dataset (NYT; 29) is composed of articles published by New York Times and the summaries are written by library scientists. NYT: New York Timesデータセット(NYT; 29)はNew York Timesが発行した記事で構成されており、要約は図書館の科学者によって書かれています。
訳抜け防止モード: NYT : The New York Times data (NYT ; 29 )はNew York Timesが発行した記事からなる。 要約は図書館の科学者によって書かれています
0.83
After applying the pre-processing procedures described in Durrett et al [7], Liu and Lapata [19], we first obtain 110,540 articles with abstractive summaries. durrett et al [7], liu and lapata [19] に記載された前処理手順を適用後、まず抽象的な要約を含む110,540記事を得る。 0.67
The test set is constructed by including the 9,076 articles published after January 1, 2007. テストセットは2007年1月1日以降に出版された9,076記事を含む。 0.68
The remain 100,834 articles are further split into training and validation sets. 残りの100,834記事は、さらにトレーニングと検証セットに分割されている。 0.60
After removing articles whose summaries are less than 50 words, we obtain the final dataset with 38,264 articles for training, 4,002 articles for validation, and 3,421 articles for test. 要約が50語未満の記事を取り除いた結果,トレーニング用38,264項目,検証用4,002項目,テスト用3,421項目のデータセットが得られた。 0.74
All datasets are tokenized with the GPT-2 tokenizer [25], which is based on UTF-8 BPE [32]. すべてのデータセットは、UTF-8 BPE [32]に基づくGPT-2トークン化器[25]でトークン化されます。 0.65
4.2 Implementation details Teacher/Student model settings We use BART Large [17] as our teacher model, which has 12 layers in each of the encoder and decoder. 4.2 実施内容 教師/学生モデルの設定 教師モデルとしてbart large [17]を使用し、エンコーダとデコーダのそれぞれに12層があります。
訳抜け防止モード: 4.2 実施内容 教師/生徒モデル設定 BART Large [17 ]を教師モデルとして使用します。 エンコーダとデコーダのそれぞれに12の層があります
0.62
The hidden size of each layer is 1024 and it contains 16 attention heads with a hidden size of 64 for each head. 各層の隠蔽サイズは1024で、各ヘッドに64の隠蔽サイズを持つ16個のアテンションヘッドを含んでいる。 0.78
We have three student models. 生徒モデルが3つあります 0.77
The first two student model are initialized from BART weights (therefore, their hidden sizes are the same as that of BART). 最初の2つの学生モデルは、BART重みから初期化されている(以前は、その隠れたサイズはBARTと同じ)。 0.79
The encoder of the first student is the BART encoder (12 layers) and its decoder is shallower with 6 decoder layers. 最初の学生のエンコーダはbartエンコーダ(12層)であり、そのデコーダは6つのデコーダ層で浅い。 0.70
This student is denoted by BART 12-6. この生徒はBART 12-6と表記される。 0.70
The encoder of the second student is also the 12-layer BART encoder and it contains 3 BART decoder layers. 第2の学生のエンコーダも12層BARTエンコーダであり、3層BARTデコーダを含んでいる。 0.80
Let BART 12-3 denote the second student. BART 12-3は2番目の学生を表す。 0.63
For BART 12-6 (or BART 12-3), the decoder is initialized from the first 6 (or 3) layers or the maximally spaced 6 (or 3) layers of BART decoder. BART 12-6(またはBART 12-3)では、デコーダは最初の6層(または3層)または最大6層(または3層)から初期化される。 0.84
The third student is the Transformer base model [36], which has 6 encoder and 6 decoder layers with hidden size of 512, 8 attention heads for each layer. 第3の学生はtransformer base model [36]で、6つのエンコーダと6つのデコーダ層があり、各レイヤに512,8の注意ヘッドが隠されている。 0.80
Let Transformer denote this student and it is randomly initialized. Transformerはこの学生をランダムに初期化します。 0.74
The latency statistics (MS) and numbers of parameters of the four models above are shown in Table 3. 上記の4つのモデルのレイテンシ統計(ms)とパラメータの数を表3に示す。 0.80
Training and inference We run all our experiments with fairseq (v0.9.0) toolkit [23]. トレーニングと推論 すべての実験をfairseq (v0.9.0) toolkit [23]で実行します。 0.75
Hyperparameters for BART, BART 12-6 and BART 12-3 are similar. BART、BART 12-6、BART 12-3のハイパーパラメータも同様である。 0.67
Specifically, All models are optimized using Adam [16] with β1 = 0.9, β2 = 0.999. 具体的には、すべてのモデルは β1 = 0.9, β2 = 0.999 で adam [16] を使って最適化される。 0.58
Learning rates are tuned on validation sets (we choose them from 1e-5, 3e-5, 5e-5, 7e-5). 学習率は検証セットで調整される(1e-5, 3e-5, 5e-5, 7e-5)。 0.65
We truncate all documents and summaries to 1024 sub-word tokens. すべての文書と要約を1024のサブワードトークンに切り換えます。 0.68
Specifically, we use a batch size of around 80 documents (we limit the max number of tokens 具体的には、約80のドキュメントのバッチサイズを使用する(トークンの最大数を制限する)。 0.72
4Scripts available at https://github.com/a bisee/cnn-dailymail 4Scripts available at https://github.com/a bisee/cnn-dailymail 0.46
5 5 0.85
英語(論文から抽出)日本語訳スコア
on each GPU to 2048) and train our models for 20,000/15,000/6,000 steps with 500 warmup steps for CNNDM, XSum, and NYT, respectively. CNNDM、XSum、NYTの500個のウォームアップステップで、それぞれ2万/15,000/6,000ステップでモデルをトレーニングします。 0.58
We also employ a weight decay of 0.01. また、重量崩壊は0.01である。 0.74
For Transformer, the hyper-parameters of the Adam optimizer is a bit different and we use β1 = 0.9, β2 = 0.98. Transformer の場合、アダムオプティマイザのハイパーパラメータは少し異なり、β1 = 0.9, β2 = 0.98 を用いる。 0.76
Learning rates are picked from 1e-4, 3e-4, 5e-4, 7e-4 according to validation sets. 検証セットに従って1e-4,3e-4,5e-4,7e-4から学習率を選択する。 0.49
The weight decay is set to 0.0001. 重量崩壊は0.0001となる。 0.79
The warmup step we use is 4000. 私たちが使うウォームアップステップは4000です。 0.62
We train Transformer for 100 epochs and select the best model w.r.t. 100エポックでTransformerをトレーニングし、最高のモデルw.r.tを選択します。 0.55
their ROUGE scores on validation sets. 彼らのROUGEスコアは検証セットです。 0.55
For all models above we apply a label smoothing of 0.1 to prevent models from overfitting to training targets [24]. 上記のすべてのモデルに対して、モデルが過度に適合しないように0.1のラベル平滑化を適用します [24]。 0.68
During inference time, as common wisdom, we apply beam search. 推論時間の間に、一般的な知恵として、ビーム探索を適用する。 0.50
The beam size, length penalty, and minimal length are 4, 2.0, and 55 on CNNDM. ビームサイズ、長さのペナルティ、最小長はCNNDMで4,2.0,55である。 0.77
These numbers are 6, 0.1, and 1 on XSum and 4, 0.7, and 80 on NYT. これらの数字は、XSumで6, 0.1, 1、NYTで4, 0.7, 80である。 0.76
All our models are trained on 8 NVIDIA V100 GPUs using data parallelism. すべてのモデルは、データ並列性を使用して8つのNVIDIA V100 GPUでトレーニングされています。 0.55
The training is fairly fast. トレーニングはかなり速いです。 0.70
Training on CNNDM with the teacher model (i.e., BART) is most time-consuming and it takes about 45 minutes for one epoch and we need 6 epochs in total. 教師モデル(BART)によるCNNDMのトレーニングは最も時間がかかり、1エポックには45分程度かかり、合計6エポックが必要である。
訳抜け防止モード: 教師モデルによるCNNDMの訓練(BART)が最も時間を要する-- 1つのエポックでは45分ほどかかります 合計で6つのエポックが必要です
0.74
4.3 Evaluations We evaluate the quality of different summarization systems using ROUGE [18]. 4.3 評価 ROUGE[18]を用いて,異なる要約システムの品質を評価する。 0.74
On CNNDM and XSum datasets, we report full-length F1 based ROUGE-1 (R1), ROUGE-2 (R2), and ROUGE-L (RL) scores. CNNDMとXSumのデータセットでは、フル長のROUGE-1(R1)、ROUGE-2(R2)、ROUGE-L(RL)のスコアを報告する。
訳抜け防止モード: CNNDMとXSumのデータセットでは、フル長F1ベースのROUGE-1(R1)を報告する。 ROUGE-2 (R2 ) and ROUGE - L (RL ) scores。
0.67
Following Durrett et al [7], Liu and Lapata [19], we report limited-length recall based ROUGE-1, ROUGE-2, and ROUGE-L, where generated summaries are truncated to the lengths of gold summaries. Durrett et al [7], Liu and Lapata [19] に続いて, 有限長リコールベースROUGE-1, ROUGE-2, ROUGE-Lについて報告する。 0.55
All ROUGE scores are computed using the ROUGE-1.5.5.pl script5. すべてのROUGEスコアはROUGE-1.5.5.plスクリプト5を使って計算される。 0.39
Summaries generated by abstractive models may be ungrammatical or unfaithful to the original document. 抽象モデルによって生成された要約は、元の文書に文法的または不誠実である。 0.54
Additionally, we also measure the quality of generated summaries by eliciting human judgements. また,人間の判断によって生成された要約の質も測定する。 0.65
We randomly sample 50 documents from the test set of CNNDM. CNNDMのテストセットから50の文書をランダムにサンプリングする。 0.75
12 annotators are invited (they are either native English speakers or graduate students with IELTS test score over 6.5). 12のアノテータが招待される(それらは英語話者か、IELTSテストスコアが6.5以上である大学院生である)。 0.67
In the evaluation, participants are presented with a document and a list of outputs by different models. 評価では、参加者には異なるモデルによるドキュメントとアウトプットのリストが提示される。 0.77
First, they are asked to evaluate the summaries on three dimensions: fluency (is the summary grammatically correct? まず,要約を3次元で評価する。fluency (要約は文法的に正しいか? 0.53
), faithfulness (is the summary faithful to the original document? ) 忠実性(要約は原文書に忠実か? 0.54
), coverage (does the summary coverage important information of the document?). 関連スポンサーコンテンツ カバレッジ(要約記事) ドキュメントの重要な情報(リンク)は? 0.56
Then, they are asked to rank the summaries from best to worst as a way of determining the overall quality of summaries. 次に、要約の全体的な品質を決定する方法として、要約をベストからワーストにランク付けするように求められる。 0.59
Each document is annotated by 3 different subjects. 各文書には3つの異なる主題が付記されている。 0.59
4.4 Results Our main results are shown in Table 2. 4.4 結果 主な結果は表2に示されています。 0.70
The first block includes several recent abstractive summarization models based on large pre-trained Transformers. 最初のブロックは、大規模な事前訓練されたトランスフォーマーに基づく、最近の抽象的要約モデルを含んでいる。 0.48
BERTSUM [19] employs BERT [6] as its encoder and uses randomly initialized decoder. BERTSUM[19]はBERT[6]をエンコーダとして使用し、ランダムに初期化デコーダを使用する。 0.63
T5 [26] is a large Seq2Seq Transformer model, which is pre-trained by predicting randomly masked text spans with sentinel tokens (T5-11B stands for the T5 model with 11B parameters). T5[26] は大きな Seq2Seq Transformer モデルであり、無作為なマスク付きテキストとセンチネルトークン(T5-11B は 11B パラメータを持つ T5 モデルを表す)を予測して事前訓練される。 0.72
PEGASUS [42] is yet another large Seq2Seq Transformer model leveraging summarization specific pre-training objectives. PEGASUS [42] は、さらに大きな Seq2Seq Transformer モデルである。 0.54
BART [17] is pre-trained using text infilling and sentence permutation. BART[17]はテキスト入力と文置換を用いて事前訓練される。 0.67
Our own fine-tuning version of BART (BART (ours)) is comparable or slightly better than the original reported BART results. 私たちのBART(BART (ours))の微調整バージョンは、最初に報告されたBART結果と同等か、あるいはわずかに優れている。 0.70
We use BART (ours) as our teacher models on the three datasets. 3つのデータセットの教師モデルとして、BART(ours)を使用します。 0.73
The second block presents results of student models. 第2ブロックは、学生モデルの結果を示す。 0.78
Shleifer and Rush [33] compares pseudolabeling (BART-PL), knowledge distillation using both output and intermediate layers (BART-KD) as well as shrink and fine-tuning (BART-SFT) methods. シュライファーとラッシュ[33]は、擬似ラベル(BART-PL)、出力層と中間層の両方を用いた知識蒸留(BART-KD)、縮小および微調整(BART-SFT)法を比較した。
訳抜け防止モード: Shleifer and Rush [ 33 ] compares pseudolabeling (BART - PL ) 出力層と中間層の両方(BART - KD )および縮小・微調整法(BART - SFT )を用いた知識蒸留。
0.77
They also use BART as their teacher models. また、教師モデルとしてBARTを使用している。 0.64
Their settings of student models are BART 12-6 on CNNDM and BART 12-3 on XSum. 学生モデルの設定はCNNDMのBART 12-6とXSumのBART 12-3である。 0.80
Results of our BART 12-3 and BART 12-6 student models are in the third and fourth block. BART 12-3とBART 12-6の学生モデルの結果は、第3ブロックと第4ブロックにある。 0.68
We present results of students using gold labels (Gold) and regular pseudo labels (Regular) as well as pseudo labels with higher and random attention temperatures (PLATEB12-3 λ=2.0 and PLATEB12-3 λ=1.5 means that the student uses attention temperature coefficient λ = 1.5 with architecture setting BART 12-3. 我々は,ゴールドラベル(ゴールド)とレギュラー擬似ラベル(レギュラー)と,高い注意温度とランダムな注意温度を持つ擬似ラベル(PLATEB12-3 λ=2.0,PLATEB12-3 λ=1.5)を用いて,学生が注意温度係数λ = 1.5,アーキテクチャ設定BART12-3を使用することを示す。 0.68
We use random attention temperature in PLATEB12-3 rnd with λ ∼ U [1.0, 2.0]. λ > U [1.0, 2.0] のPLATEB12-3 rndにおけるランダムアテンション温度を用いる。 0.64
We observe that using pseudo-labeling methods with higher attention temperatures consistently improves over its counterpart with normal attention temperatures (Regular) across all three datasets and the differences between them are almost always significant measure with the λ=2.0 and PLATEB12-6 ROUGE script (see details in Table 2). 注意温度の高い擬似ラベル法を用いることは, 通常の注意温度(規則)に比べて常に改善され, λ=2.0 と PLATEB12-6 ROUGE スクリプトの差はほとんど常に重要な指標となる(表2参照)。 0.75
Interestingly, our student models PLATEB12-3 興味深いことに 学生モデルのplaterb12-3は 0.50
λ=1.5, PLATEB12-3 λ=1.5, PLATEB12-3 0.43
λ=2.0 rnd ). λ=2.0 rnd ). 0.70
PLATEB12-3 PLATEB12-3 0.47
5with -c 95 -r 1000 -n 2 -a -m arguments 5with -c 95 -r 1000 -n 2 -a -m 引数 0.72
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 2: Results of various models on CNNDM, XSum and NYT datasets. 表2: CNNDM、XSum、NYTデータセット上のさまざまなモデルの結果。 0.83
ROUGE scores on CNNDM and XSum are F1 based and ROUGE scores on NYT are limited-length recall based. CNNDMとXSumのROUGEスコアはF1ベース、NYTのROUGEスコアは制限長リコールベースである。 0.63
BART (ours) is our own implementation of BART fine-tuning. BART (ours)はBARTファインチューニングの実装です。 0.70
* indicates the model significantly outperforms regular pseudo labeling model (Regular). * は正規の擬似ラベルモデル (Regular) を大幅に上回るモデルを示す。 0.80
CNNDM R2 RL Teacher CNNDM R2 RL教師 0.80
R1 XSum R2 R1 XSum R2 0.81
RL R1 NYT R2 RL R1 NYT R2 0.84
RL 49.02 31.02 RL 49.02 31.02 0.68
45.55 39.18 40.69 41.11 40.90 41.44 45.55 39.18 40.69 41.11 40.90 41.44 0.51
38.81 – 47.21 45.14 45.50 38.81 – 47.21 45.14 45.50 0.64
16.50 – 24.56 22.27 22.26 16.50 – 24.56 22.27 22.26 0.64
31.27 – 39.25 37.25 36.98 31.27 – 39.25 37.25 36.98 0.64
– – – – – – – – – – – – 0.85
– – – 55.41 – – – 55.41 0.72
36.59 51.11 36.59 51.11 0.59
Model/Dataset Model/Dataset 0.59
BERTSUM[19] T5-11B[26] PEGASUS[42] BART[17] BART (ours) BERTSUM[19] T5-11B[26] PEGASUS[42] BART[17] BART (ours) 0.99
BART-PL[33] BART-KD[33] BART-SFT[33] BART-PL[33] BART-KD[33] BART-SFT[33] 0.80
BART 12-3 BART 12-6 BART 12-3 BART 12-6 0.71
BART 12-12 BART 12-12 0.71
Transformer Gold Regular PLATEλ=1.5 PLATEλ=2.0 PLATErnd 変圧器 金本位制 PLATEλ=1.5 PLATEλ=2.0 PLATErnd 0.45
Gold Regular PLATEλ=1.5 PLATEλ=2.0 PLATErnd Regular 金本位制 PLATEλ=1.5 PLATEλ=2.0 PLATErnd regular 0.43
PLATEλ=1.5 PLATEλ=2.0 PLATErnd PLATEλ=1.5 PLATEλ=2.0 PLATErnd 0.34
Gold Regular PLATEλ=1.5 PLATEλ=2.0 金本位制 PLATEλ=1.5 PLATEλ=2.0 0.37
R1 42.13 43.52 44.17 44.16 44.71 R1 42.13 43.52 44.17 44.16 44.71 0.61
– – – 44.28 43.65 44.54∗ 44.65∗ 44.27∗ 44.00 44.00 44.29∗ 44.84∗ 44.38∗ 43.58 44.72∗ 45.08∗ 44.65∗ 40.29 41.00 41.19 41.15 – – – 44.28 43.65 44.54∗ 44.65∗ 44.27∗ 44.00 44.00 44.29∗ 44.84∗ 44.38∗ 43.58 44.72∗ 45.08∗ 44.65∗ 40.29 41.00 41.19 41.15 0.60
19.60 21.55 21.47 21.28 21.52 19.60 21.55 21.47 21.28 21.52 0.44
19.93 20.95 21.21 21.31 21.10 21.70∗ 21.78∗ 21.50∗ 21.08 21.08 21.57∗ 21.95∗ 21.65∗ 21.14 21.88∗ 21.98∗ 21.80∗ 17.49 18.35 18.33 18.41 19.93 20.95 21.21 21.31 21.10 21.70∗ 21.78∗ 21.50∗ 21.08 21.08 21.57∗ 21.95∗ 21.65∗ 21.14 21.88∗ 21.98∗ 21.80∗ 17.49 18.35 18.33 18.41 0.35
Student – – – 学生 – - 学生。 0.80
– – – 41.18 40.40 41.41∗ 41.71∗ 41.15∗ 40.76 40.29 41.13∗ 41.77∗ 41.27∗ 40.33 41.55∗ 42.07∗ 41.53∗ 36.71 37.65 38.01∗ 38.00∗ – – – 41.18 40.40 41.41∗ 41.71∗ 41.15∗ 40.76 40.29 41.13∗ 41.77∗ 41.27∗ 40.33 41.55∗ 42.07∗ 41.53∗ 36.71 37.65 38.01∗ 38.00∗ 0.59
44.33 44.40 44.40 43.50 44.21 44.88 44.87 45.13 44.51 45.00 44.55 45.22∗ 44.76 44.60 29.04 30.19 29.40 28.56 44.33 44.40 44.40 43.50 44.21 44.88 44.87 45.13 44.51 45.00 44.55 45.22∗ 44.76 44.60 29.04 30.19 29.40 28.56 0.40
21.38 21.63 21.08 21.60 21.63 21.92 21.45 21.70 21.75 21.65 22.07∗ 21.79 22.09∗ 21.42 22.30∗ 22.06∗ 21.86∗ 9.21 9.79 10.11∗ 10.02∗ 21.38 21.63 21.08 21.60 21.63 21.92 21.45 21.70 21.75 21.65 22.07∗ 21.79 22.09∗ 21.42 22.30∗ 22.06∗ 21.86∗ 9.21 9.79 10.11∗ 10.02∗ 0.36
– – – 36.73 36.44 36.92∗ 36.47 36.81∗ 36.72 36.47 37.13∗ 36.92∗ 37.09∗ 36.01 37.22∗ 37.09∗ 36.69∗ 22.18 22.88 22.95∗ 22.83∗ – – – 36.73 36.44 36.92∗ 36.47 36.81∗ 36.72 36.47 37.13∗ 36.92∗ 37.09∗ 36.01 37.22∗ 37.09∗ 36.69∗ 22.18 22.88 22.95∗ 22.83∗ 0.60
– – – 54.75 53.82 54.47∗ 54.96∗ 54.60∗ 55.07 53.85 54.41∗ 55.07∗ 54.74∗ 54.36 54.90 55.70∗ 55.15∗ 49.44 49.97 50.21 50.35 – – – 54.75 53.82 54.47∗ 54.96∗ 54.60∗ 55.07 53.85 54.41∗ 55.07∗ 54.74∗ 54.36 54.90 55.70∗ 55.15∗ 49.44 49.97 50.21 50.35 0.60
– – – 35.52 35.12 35.65 35.72 35.70 35.91 35.08 35.61∗ 35.92∗ 35.88∗ 35.74 36.17 36.28 36.28 29.04 31.00 31.14 30.75 – – – 35.52 35.12 35.65 35.72 35.70 35.91 35.08 35.61∗ 35.92∗ 35.88∗ 35.74 36.17 36.28 36.28 29.04 31.00 31.14 30.75 0.62
– – – 50.56 49.45 50.39∗ 51.05∗ 50.53∗ 50.69 49.36 50.29∗ 51.05∗ 50.66∗ 49.97 50.84∗ 51.70∗ 51.11∗ 45.07 45.88 46.25 46.39 – – – 50.56 49.45 50.39∗ 51.05∗ 50.53∗ 50.69 49.36 50.29∗ 51.05∗ 50.66∗ 49.97 50.84∗ 51.70∗ 51.11∗ 45.07 45.88 46.25 46.39 0.60
outperforms all models (including student models and our teacher model) in comparison on CNNDM. CNNDMと比較して、すべてのモデル(学生モデルと教師モデルを含む)を上回ります。 0.77
Our best performing student model PLATEB12-3 λ=1.5 outperforms BART-PL, BART-SFT and BART-KD on XSum. XSum 上で BART-PL, BART-SFT, BART-KD を比較検討した。 0.63
Meanwhile, our method is conceptually simpler and can further be combined with their methods with additional training objectives. 一方,本手法は概念的にシンプルであり,さらに追加の訓練目的と組み合わせることができる。 0.73
In Section 3.3, we also propose a variant of our method, which employs random attention temperatures (λ ∼ U [1.0, 2.0] in Table 2). 第3節3では、ランダムな注意温度(表2のλ > U [1.0, 2.0])を利用する方法の変種も提案する。 0.70
We can see that random temperature based method is not as good as our best fixed-temperature method, but it in general produces decent results. ランダム温度に基づく手法は, 最高の固定温度法ほど良くないが, 一般には良好な結果が得られる。 0.72
Therefore, we recommend using this method when the computing budget is limited. したがって,計算予算が限られている場合には,この手法を使うことを推奨する。 0.62
In the fifth block, we further conduct self-distillation experiments. 第5ブロックでは,さらに自己蒸留実験を行う。 0.73
Our method improves the teacher model on CNNDM. 本手法はCNNDMの教師モデルを改善する。 0.73
ROUGE-2/L scores are improved on XSum, while on NYT, there are improvements on ROUGE-1/L. ROUGE-2/LスコアはXSumで改善され、NYTではROUGE-1/Lで改善された。 0.61
Results with the Transformer student (the sixth block) follow a similar trend, although the improvements are smaller. Transformerの学生(第6ブロック)による結果は、改善は小さいものの、同様の傾向を辿っている。 0.76
It may because the modeling power of Transformers without pre-training is not large enough to effectively model the differences in pseudo labels. 事前学習のないトランスフォーマーのモデリング能力は、擬似ラベルの違いを効果的にモデル化するのに十分ではないためかもしれない。
訳抜け防止モード: 事前訓練のないトランスフォーマーのモデリング能力が十分ではないためかもしれない 擬似ラベルの違いを効果的にモデル化します
0.75
It is also interesting to see that students distilled with pseudo-labeling do improve gold label based students using randomly initialized Transformer, but not with pre-trained models (i.e., BART 12-6 and BART 12-3), which may also be due to the strong modeling power of large pre-trained Transformers. また、擬似ラベルで蒸留された学生は、ランダムに初期化したトランスフォーマーを用いて、ゴールドラベルベースの学生を改良するが、事前訓練されたモデル(BART 12-6とBART 12-3)では、大きな事前訓練されたトランスフォーマーの強力なモデリング力によってもたらされる可能性がある。 0.62
Human evaluation We randomly sample 50 documents from the test set of CNNDM. 人間の評価 CNNDMのテストセットから50の文書をランダムにサンプリングする。 0.74
We compare our best student model PLATEB12-6 λ=2.0 against the regular pseudo-labeling model (Regular), another model PLATEB12-6 λ=1.5 and human reference (Ref). 最善の学生モデル plateb12-6 λ=2.0 を正規擬似ラベルモデル (レギュラー) と,別のモデル plateb12-6 λ=1.5 とヒト参照モデル (ref) と比較した。 0.63
We ask human judges to rank the outputs of these models from best to worst. 人間の裁判官に、これらのモデルのアウトプットを最善から最悪までランク付けするように求めます。
訳抜け防止モード: 我々は人間の裁判官に尋ねる これらのモデルのアウトプットを 最高から最悪にランク付けします
0.64
We convert the ranks to rank ratings (rank i to 5 − i) and further conduct student t-test on these ratings. 我々はランクをランク評価(ランク i から 5 − i )に変換し、さらにこれらの評価で生徒のt-テストを行う。 0.69
As shown in Table 4, PLATEB12-6 λ=2.0 obtains the best ranking score and the difference between PLATEB12-6 λ=2.0 and the regular pseudo-labeling based method Regular is significant (p < 0.05), which indicates our proposed method PLATE indeed produces better summaries. 表4に示すように、PLATEB12-6 λ=2.0は最高のランキングスコアを取得し、PLATEB12-6 λ=2.0と通常の擬似ラベル法との差は大きい(p < 0.05)。 0.71
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 3: Latency (MS) on a V100 GPU and number of parameters (million) of our models. 表3: V100 GPU上のレイテンシ(MS)とモデルのパラメータ数(数百万)。
訳抜け防止モード: 表3 : V100 GPU上のレイテンシ(MS) そして、モデルのパラメータ(100万)の数です。
0.82
Model # Param. BART BART 12-6 BART 12-3 Transformer モデル #パラム。 BART BART 12-6 BART 12-3 トランス 0.71
406M 306M 255M 70M 406M306M255M70M 0.57
CNNDM XSum NYT 3272 1692 1488 1462 CNNDM XSum NYT 3272 1692 1488 1462 0.85
1975 1279 924 1028 1975 1279 924 1028 0.85
Latency (MS) Latency (複数形 Latencys) 0.69
903 438 289 406 903 438 289 406 0.85
Table 4: Human Evaluation on CNNDM dataset. 表4: CNNDMデータセットの人間評価。 0.78
* means significantly better than Pseudo. ※偽より格段に良い。 0.41
Ref Regular 2.4 refレギュラー2.4 0.62
2.1 PLATEB12-6 λ=1.5 2.1 PLATEB12-6λ=1.5 0.47
2.4 PLATEB12-6 λ=2.0 2.4 PLATEB12-6 λ=2.0 0.47
2.7∗ rank Table 5: Effects of re-scaling attention temperatures for encoder self-attention, decoder self-attention and decoder cross-attention on the validation set of CNNDM. 2.7∗ 位階 表5: エンコーダセルフアテンション、デコーダセルフアテンション、デコーダクロスアテンションに対する注意度の再スケーリングがcnndmの検証セットに及ぼす影響。
訳抜け防止モード: 2.7∗ 位階 表5:re-scale attention temperature for encoder self - attention decoder self - attention and decoder cross - cnndmの検証セットに注目します。
0.57
Attention Setting λenc = λcross = λdec = 2.0 注意設定 λenc = λcross = λdec = 2.0 0.76
– with λenc = 1.0 – with λcross = 1.0 – with λdec = 1.0 -λenc = 1.0 - λcross = 1.0 - λdec = 1.0 0.80
R1 45.58 45.58 44.29 44.82 R1 45.58 45.58 44.29 44.82 0.47
R2 22.48 22.45 21.37 21.99 R2 22.48 22.45 21.37 21.99 0.47
RL 36.78 36.71 35.51 35.57 RL 36.78 36.71 35.51 35.57 0.50
Table 6: ROUGE scores of teacher models with different attention temperature coefficient λ on the test split of CNNDM. 表6: ROUGE は CNNDM のテスト分割における注意温度係数 λ の異なる教師モデルのスコアである。 0.84
λ 1.0 1.5 2.0 λ 1.0 1.5 2.0 0.53
R1 44.60 44.85 44.34 R1 44.60 44.85 44.34 0.49
R2 21.44 21.55 20.98 R2 21.44 21.55 20.98 0.49
RL 35.59 36.13 35.78 RL 35.59 36.13 35.78 0.53
Ablation study In a Seq2Seq Transformer model, there are three types of attention modules (i.e., encoder self-attention, decoder self-attention and decoder cross-attention and we can scale the attention temperatures for all of them or some of them. アブレーション研究 Seq2Seq Transformer モデルには、注意モジュール(エンコーダの自己注意、デコーダの自己注意、デコーダの相互注意)が3種類あり、それらすべてまたは一部の注意温度をスケールすることができる。
訳抜け防止モード: アブレーション研究 Seq2Seq Transformer モデルでは、注意モジュールには3つのタイプがある(すなわち、注意モジュール)。 encoder self - attention, decoder self - attention and decoder cross - attention 注意温度を上昇させることができます
0.78
Let λenc denote the attention temperature coefficient for the encoder self-attention module, λcross the coefficient for the decoder cross-attention module and λdec the coefficient for the decoder self-attention module. λenc をエンコーダ自己アテンションモジュールの注意温度係数とし、λ をデコーダクロスアテンションモジュールの係数、λdec をデコーダ自己アテンションモジュールの係数とする。 0.72
As shown in Table 5, using large attention temperature coefficients (2.0) for all three types of attention modules leads to the best result. 表5に示すように、3種類の注意モジュールに対して大きな注意温度係数(2.0)を使用すると、最もよい結果が得られる。
訳抜け防止モード: 表5に示す。 3種類の注目モジュールに対して大きな注意温度係数(2.0)を使用する 最高の結果につながるのです
0.82
When setting the coefficient of the cross attention module to λcross = 1.0, the ROUGE scores drop most (see the third row). クロスアテンション加群の係数をλcross = 1.0に設定すると、ROUGEのスコアが最も小さくなる(第3行を参照)。 0.65
Perhaps this is not surprising, since cross attention modules are directly related to the selection of document contents for summarization. クロスアテンションモジュールは要約のためのドキュメントコンテンツの選択に直接関係しているため、これは驚くことではないだろう。 0.65
Besides, the attention temperature of the decoder self-attention is also crucial (see the fourth row). また、デコーダ自己注意の注意温度も重要である(第4列参照)。 0.64
4.5 Analysis Why does our distillation method work? 4.5分析 なぜ蒸留方法が機能するのか? 0.70
To answer this question, we try to analyze the reasons from both the external characteristics of the summaries generated by the teacher model and the internal characteristics of the teacher’s attention mechanism. そこで本研究では,教師モデルが生成する要約の外部特性と教師の注意機構の内部特性の両方から理由を解明する。 0.67
Length and novel n-grams We first analyze the pseudo summaries generated by our teacher models. 長さと新しいn-gram 教師モデルによって生成された擬似要約をまず分析する。 0.63
We calculate novel n-grams and lengths of generated summaries. 生成した要約の新規n-gramと長さを計算する。 0.53
Note that if an n-gram appears in the summary, but not in the original document, we call it a novel n-gram. 注意すべき点は、n-gram が要約に現れるが、元の文書にはない場合、これを新しい n-gram と呼ぶことである。 0.66
Proportions of novel n-grams are used to measure the abstractiveness of summaries [31, 19]. 要約 [31, 19] の抽象性を測定するために、新しい n-gram の比率が用いられる。 0.68
As shown in Table 7, when using a larger λ, pseudo summaries from teachers are shorter and contain a larger portion of novel n-grams. 表7に示すように、より大きなλを使用する場合、教師からの疑似要約はより短く、多くの新しいn-gramを含む。 0.73
It indicates that the teachers can produce more concise and abstractive summaries, which matches the goal of abstractive summarization. 教師はより簡潔で抽象的な要約を作成でき、抽象的な要約の目標と一致することを示す。 0.66
Are these pseudo summaries of good quality? これらの偽の要約は良質ですか。 0.61
The performance of teachers on CNNDM test set with different attention temperatures is shown in Table 6. 注意温度の異なるcnndmテストセットにおける教師のパフォーマンスを表6に示す。 0.79
Their results are all decent and close to each other (at least for ROUGE-1 and ROUGE-L). 彼らの結果はどれもまともで、互いに近い(少なくともROUGE-1とROUGE-L)。 0.63
Interestingly, compared with λ = 1.0, the performance of the teacher with λ = 2.0 is worse, but the resulting student is much better (see Table 2). 興味深いことに、λ = 1.0と比較して、λ = 2.0 を持つ教師のパフォーマンスは悪いが、結果の生徒の方がずっと良い(表2)。 0.79
Perhaps not surprisingly, the styles of summaries from students are similar with these from their teachers. おそらく驚くことではないが、生徒の要約のスタイルは教師のものと似ている。 0.64
Concise and abstractive teachers lead to concise and abstractive students (see Table 7). 簡潔で抽象的な教師は簡潔で抽象的な学生に繋がる(表7参照)。 0.68
Conciseness and abstractiveness are good properties for summarization, which may not be the case for other generation tasks such as machine translation. 簡潔さと抽象性は要約に良い性質であり、機械翻訳のような他の世代のタスクには当てはまらない。 0.65
Therefore, we did not conduct experiments on machine translation in this work. そのため,本研究では機械翻訳の実験は行わなかった。 0.81
Attention We have shown earlier in Figure 1 that with higher attention temperature, cross-attention modules of a teacher can attend to later parts in documents. 注意 図1では、注意温度が高い場合、教師のクロスアテンションモジュールが後続の文書に出席できることが示されている。 0.70
We observe that students behave similarly and we put more visualizations of a student cross attention in Appendix A. 我々は,学生が同じように振る舞うことを観察し,アペンディックスAで学生の横断的な注意を可視化する。 0.71
To obtain corpus-level statistics, we further calculate the evident cross-attention weight distributions of our teacher when generating pseudo labels on the training set of CNNDM. コーパスレベルの統計値を得るために,CNNDMのトレーニングセットに擬似ラベルを生成する際に,教師の明らかなクロスアテンション重み分布を計算する。 0.71
Note that an attention weight is evident if 注意の重みが明らかであれば 0.69
8 8 0.85
英語(論文から抽出)日本語訳スコア
Table 7: Statistics on outputs of teachers and students with different attention temperature coefficient λ. 表7: 注意温度係数 λ の異なる教師と生徒の出力に関する統計。 0.82
The student models are all with the BART 12-6 setting. 学生モデルは、すべてBART 12-6設定である。 0.89
λ Setting gold CNNDM 1.0 1.5 λ の設定 金 CNNDM 1.0 1.5 0.65
2.0 gold 1.0 Average Length 2.0 金 平均長さ1.0 0.62
XSum 1.5 2.0 XSum 1.5 2.0 0.68
gold NYT 1.0 1.5 金 NYT 1.0 1.5 0.67
2.0 Teacher Avg. 2.0 教師Avg。 0.62
Len. Student Avg. レン。 学生avg。 0.61
Len. 48.03 67.51 レン。 48.03 67.51 0.52
64.78 82.31 64.78 82.31 0.50
56.81 73.10 56.81 73.10 0.50
Teacher Student 1-gram 2-grams 3-grams 4-grams 1-gram 2-grams 3-grams 4-grams 教師 学生 1グラム2グラム3グラム4グラム1グラム2グラム3グラム4グラム 0.65
25.24 61.08 77.49 85.13 23.55 58.52 75.50 83.49 25.24 61.08 77.49 85.13 23.55 58.52 75.50 83.49 0.42
7.89 23.60 35.43 44.10 4.58 15.16 24.36 31.70 7.89 23.60 35.43 44.10 4.58 15.16 24.36 31.70 0.42
9.15 27.38 40.54 49.66 5.07 16.64 26.58 34.36 9.15 27.38 40.54 49.66 5.07 16.64 26.58 34.36 0.42
21.10 21.01 21.10 21.01 0.50
20.33 22.46 20.33 22.46 0.50
52.16 65.92 Novel n-grams Ratio(%) 12.56 36.81 52.77 62.56 6.56 21.40 33.67 42.74 52.16 65.92 新規 n-grams ratio(%) 12.56 36.81 52.77 62.56 6.56 21.40 33.67 42.74 0.47
46.78 87.83 97.17 99.08 46.80 87.89 97.21 99.12 46.78 87.83 97.17 99.08 46.80 87.89 97.21 99.12 0.42
38.68 80.50 93.09 96.78 37.33 78.74 91.99 96.10 38.68 80.50 93.09 96.78 37.33 78.74 91.99 96.10 0.42
17.28 18.69 17.28 18.69 0.50
15.66 16.84 15.66 16.84 0.50
78.61 92.61 78.61 92.61 0.50
105.83 109.78 105.83 109.78 0.50
88.58 98.16 88.58 98.16 0.50
79.05 88.52 79.05 88.52 0.50
39.05 81.91 94.27 97.64 38.01 80.56 93.55 97.25 39.05 81.91 94.27 97.64 38.01 80.56 93.55 97.25 0.42
39.33 82.70 94.91 98.07 38.07 81.28 94.18 97.70 39.33 82.70 94.91 98.07 38.07 81.28 94.18 97.70 0.42
12.96 45.90 65.12 75.21 10.36 41.16 60.65 71.48 12.96 45.90 65.12 75.21 10.36 41.16 60.65 71.48 0.42
4.04 22.54 39.20 51.09 3.46 21.21 37.60 49.56 4.04 22.54 39.20 51.09 3.46 21.21 37.60 49.56 0.42
4.34 23.14 39.88 51.63 3.37 20.50 36.67 48.47 4.34 23.14 39.88 51.63 3.37 20.50 36.67 48.47 0.42
6.25 28.95 46.93 58.36 3.64 21.93 38.71 50.56 6.25 28.95 46.93 58.36 3.64 21.93 38.71 50.56 0.42
Figure 2: Distributions of evident cross attention weights (≥ 0.15) when teachers generate pseudo labels with different attention temperatures w.r.t. 図2: 教師が注意温度の異なる擬似ラベルを生成する場合、明らかな横断的注意重み(0.15未満)の分布。 0.76
token positions. it is greater than 0.15 and these evident attention weights account for around 15% of all attention weights. トークンの位置。 0.15以上であり、これらの明らかな注意重みはすべての注意重みの約15%を占める。 0.64
Specifically, we normalize the token positions of each document to (0.0, 1.0] and divide the normalized positions into five bins. 具体的には、各文書のトークン位置を (0.0, 1.0] に正規化し、正規化された位置を5つのビンに分割する。
訳抜け防止モード: 具体的には、各文書のトークン位置を (0.0, 1.0 ] に正規化する。 通常の位置を5つに分けます
0.65
The mean proportions of evident attentions for all bins are shown in Figure 2. すべてのビンに対する明らかな注意の平均比率は図2に示されます。 0.73
Compared to the teacher with normal attention temperature (pink bar), teachers with higher attention temperatures (blue and green bars) attend less on the heading parts of documents while more on the tail parts of documents. 通常の注意温度(ピンクバー)の教師に比べ、注意温度が高い教師(青と緑のバー)は文書の先頭の部分に、ドキュメントの尾の部分にはより少ない。 0.71
To sum up, teachers with higher attention temperatures can generate more concise and abstractive pseudo summaries, which makes the teacher provide more summary-like pseudo labels to students. まとめると、注意温度の高い教師はより簡潔で抽象的な疑似要約を生成し、教師は学生に要約のような擬似ラベルを提供する。 0.67
High-temperature teachers can alleviate the leading bias problems by providing pseudo labels with better coverage of source documents to students. 高温教師は、学生にソース文書をよりよくカバーする疑似ラベルを提供することで、バイアス問題を緩和することができる。
訳抜け防止モード: 高温教師は主要なバイアス問題を軽減できる 学生に資料を 掲載する偽のラベルを 提供しています
0.77
5 Conclusions In this work, we propose a simple but effective extension of pseudo-labeling method PLATE for summarization distillation. 結論5 本研究では, 要約蒸留のための擬似ラベル法PLATEの簡易かつ効果的な拡張法を提案する。 0.65
Experiments on three datasets demonstrate that our method can consistently outperform the vanilla pseudo-labeling method. 3つのデータセットにおける実験により、この手法がバニラ擬似ラベル法を一貫して上回ることを示した。
訳抜け防止モード: 3つのデータセットに関する実験は このメソッドは、バニラ擬似ラベリングメソッドを一貫して上回ることができる。
0.54
Further empirical analysis shows that by using our method, teacher models can generate more concise and abstractive summaries. さらなる実証分析により,教師モデルはより簡潔で抽象的な要約を生成できることが示された。 0.76
As a result, summaries produced by student models also become more concise and abstractive. 結果として、学生モデルによる要約もより簡潔で抽象的になる。 0.80
In the future, we would like to apply our method to other generation tasks as well as self-training with unlabeled data. 将来的には,本手法を他の世代タスクに適用し,ラベルのないデータによる自己学習を行おうとする。 0.75
We are also interested in extending our method for better teacher model training. また、より優れた教師モデルトレーニングの方法を拡張することにも興味があります。 0.56
9   (  (  (  (  (472,0/9403548943 94 3907;,83/4. 9   (  (  (  (  (472,0/9403548943 94 3907;,83/4. 0.45
:20398       !74547943410;/039,9903943098 =1.0=1.5=2.0 :20398       !74547943410;/039,9903943098 =1.0=1.5=2.0 0.51
英語(論文から抽出)日本語訳スコア
References [1] Jimmy Ba and Rich Caruana. ジミー・バ (Jimmy Ba) とリッチ・カラナ (Rich Caruana)。 0.47
Do deep nets really need to be deep? 深層網は本当に深層が必要か? 0.72
In NIPS, 2014. 2014年、NIPS。 0.76
[2] Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, et al Unilmv2: Pseudo-masked language models for unified language model pre-training. [2]Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, et al Unilmv2: Pseudo-masked language model for unified language model pre-training。 0.90
In International Conference on Machine Learning, pages 642–652. 国際機械学習会議において、642-652頁。 0.78
PMLR, 2020. PMLR、2020年。 0.88
[3] Wojciech Marian Czarnecki, Simon Osindero, Max Jaderberg, Grzegorz Swirszcz, and Razvan In Proceedings of the 31st International [3]Wojciech Marian Czarnecki,Simon Osindero,Max Jaderberg,Grzegorz Swirszcz,Razvan In Proceedings of the 31th International 0.68
Pascanu. Sobolev training for neural networks. Pascanu ニューラルネットワークのためのソボレフトレーニング。 0.60
Conference on Neural Information Processing Systems, pages 4281–4290, 2017. conference on neural information processing systems, pages 4281–4290, 2017 (英語) 0.73
[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. [4]Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。 0.78
Imagenet: A largescale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.87
In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. 2009年、ieee conference on computer vision and pattern recognition 248-255ページ。 0.80
Ieee, 2009. Ieee, 2009年。 0.89
[5] Michael Denkowski and Graham Neubig. Michael Denkowski氏とGraham Neubig氏。 0.58
Stronger baselines for trustable results in neural machine translation. ニューラルネットワーク翻訳における信頼性の高い結果に対するより強いベースライン。 0.55
In Proceedings of the First Workshop on Neural Machine Translation, pages 18–27, Vancouver, August 2017. Proceedings of the First Workshop on Neural Machine Translation, page 18–27, Vancouver, August 2017 (英語) 0.86
Association for Computational Linguistics. doi: 10. 計算言語学会会員。 ドイ:10です 0.49
18653/v1/W17-3203. 18653/v1/W17-3203。 0.31
URL https://www.aclweb.o rg/anthology/W17-320 3. URL https://www.aclweb.o rg/anthology/W17-320 3。 0.36
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.76
BERT: Pre-training of deep bidirectional transformers for language understanding. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota, June 2019. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota, June 2019 0.78
Association for Computational Linguistics. doi: 10.18653/v1/N19-1423 . 計算言語学会会員。 doi: 10.18653/v1/n19-1423 。 0.45
URL https://www.aclweb.o rg/anthology/N19-142 3. URL https://www.aclweb.o rg/anthology/N19-142 3 0.38
[7] Greg Durrett, Taylor Berg-Kirkpatrick, and Dan Klein. Greg Durrett氏、Taylor Berg-Kirkpatrick氏、Dan Klein氏。 0.77
Learning-based single-document summarization with compression and anaphoricity constraints. 圧縮と照応性の制約を伴う学習に基づく単一文書要約 0.65
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1998–2008, Berlin, Germany, August 2016. 第54回計算言語学会年次大会(Volume 1: Long Papers, 1998–2008, Berlin, Germany, 2016)に参加して 0.67
Association for Computational Linguistics. doi: 10.18653/v1/P16-1188 . 計算言語学会会員。 doi: 10.18653/v1/p16-1188 。 0.45
URL https://www.aclweb.o rg/anthology/P16-118 8. URL https://www.aclweb.o rg/anthology/P16-118 8 0.39
[8] Tommaso Furlanello, Zachary Lipton, Michael Tschannen, Laurent Itti, and Anima Anandkumar. 8]Tommaso Furlanello、Zachary Lipton、Michael Tschannen、Laurent Itti、Anima Anandkumar。 0.59
Born again neural networks. ニューラルネットワークが生まれました 0.74
In International Conference on Machine Learning, pages 1607– 1616. 国際機械学習会議、1607-1616頁。 0.61
PMLR, 2018. 2018年、PMLR。 0.68
[9] Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK Li, and Richard Socher. 9]Jiatao Gu、James Bradbury、Caiming Xiong、Victor OK Li、Richard Socher。 0.68
Non- autoregressive neural machine translation. 非 自己回帰型ニューラルマシン翻訳 0.74
arXiv preprint arXiv:1711.02281, 2017. arXiv preprint arXiv:1711.02281, 2017 0.79
[10] Junxian He, Jiatao Gu, Jiajun Shen, and Marc’Aurelio Ranzato. [10]Junxian He, Jiatao Gu, Jiajun Shen, Marc’Aurelio Ranzato。 0.70
Revisiting self-training for neural sequence generation. 神経シーケンス生成のための自己学習の再検討 0.60
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
[11] Karl Moritz Hermann, Tomás Kocisk`y, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa [11]Karl Moritz Hermann,Tomás Kocisk`y, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa 0.82
Suleyman, and Phil Blunsom. サリーマン、フィル・ブランサム。 0.56
Teaching machines to read and comprehend. 機械に読み書きを教える。 0.53
In NIPS, 2015. 2015年、NIPS。 0.75
[12] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Geoffrey Hinton氏、Oriol Vinyals氏、Jeff Dean氏。 0.63
Distilling the knowledge in a neural network. ニューラルネットワークで知識を蒸留する。 0.66
arXiv preprint arXiv:1503.02531, 2015. arXiv preprint arXiv:1503.02531, 2015 0.81
[13] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. [13]Xiaoqi Jiao、Yichun Yin、Lifeng Shang、Xin Jiang、Xiao Chen、Linlin Li、Fang Wang、Qun Liu。
訳抜け防止モード: [13 ]Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang とQun Liuは言う。
0.81
TinyBERT: Distilling BERT for natural language understanding. TinyBERT: 自然言語理解のためにBERTを蒸留する。 0.65
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4163–4174, Online, November 2020. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 4163–4174, Online, 2020 0.79
Association for Computational Linguistics. doi: 10.18653/v1/2020.findings-emnlp.372. 計算言語学会会員。 10.18653/v1/2020.fin dings-emnlp.372 0.42
URL https://www.aclweb.o rg/anthology/2020.fi ndings-emnlp.372. URL https://www.aclweb.o rg/Anthology/2020.fi ndings-emnlp.372 0.33
[14] Jungo Kasai, Nikolaos Pappas, Hao Peng, James Cross, and Noah A Smith. [14]香西順吾、ニコラオス・パパス、ホー・ペン、ジェームズ・クロス、ノア・A・スミス。 0.57
Deep encoder, shallow decoder: Reevaluating the speed-quality tradeoff in machine translation. Deep Encoder, shallow Decoder: 機械翻訳における速度品質トレードオフの再評価。 0.76
arXiv preprint arXiv:2006.10369, 2020. arXiv preprint arXiv:2006.10369, 2020 0.81
[15] Yoon Kim and Alexander M. Rush. 15] キム・ユンとアレクサンドル・m・ラッシュ 0.59
Sequence-level knowledge distillation. シーケンスレベルの知識蒸留。 0.60
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327, Austin, Texas, November 2016. 2016 Conference on Empirical Methods in Natural Language Processing, page 1317–1327, Austin, Texas, November 2016 (英語) 0.79
Association for Computational Linguistics. doi: 10.18653/v1/ D16-1139. 計算言語学会会員。 doi: 10.18653/v1/D16-1139 。 0.47
URL https://www.aclweb.o rg/anthology/D16-113 9. URL https://www.aclweb.o rg/anthology/D16-113 9。 0.34
10 10 0.85
英語(論文から抽出)日本語訳スコア
[16] Diederik P Kingma and Jimmy Ba. 16]Diederik P KingmaとJimmy Ba。 0.69
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
arXiv preprint arXiv プレプリント 0.83
arXiv:1412.6980, 2014. arxiv:1412.6980, 2014年。 0.38
[17] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Mike Lewis氏、Yinhan Liu氏、Naman Goyal氏、Marjan Ghazvininejad氏、Abdelrahman Mohamed氏、Omer Levy氏、Veslin Stoyanov氏、Luke Zettlemoyer氏。 0.72
BART: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. BART: 自然言語の生成、翻訳、理解のためのシーケンス・ツー・シーケンスの事前学習。 0.57
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7871–7880, Online, July 2020. 58th Annual Meeting of the Association for Computational Linguistics, page 7871-7880, Online, 2020 0.64
Association for Computational Linguistics. doi: 10.18653/v1/2020.acl -main. 計算言語学会会員。 doi: 10.18653/v1/2020.acl -main。 0.44
703. URL https://www.aclweb.o rg/anthology/2020.ac l-main.703. 703. URL https://www.aclweb.o rg/Anthology/2020.ac l-main.703 0.59
[18] Chin-Yew Lin. [18]チン・ユー・リン。 0.53
ROUGE: A package for automatic evaluation of summaries. rouge: 要約の自動評価のためのパッケージ。 0.61
In Text Summarization Branches Out, pages 74–81, Barcelona, Spain, July 2004. 英語) Text Summarization Branches Out, page 74–81, Barcelona, Spain, July 2004 0.83
Association for Computational Linguistics. URL https://www.aclweb.o rg/anthology/W04-101 3. 計算言語学会会員。 URL https://www.aclweb.o rg/anthology/W04-101 3。 0.44
[19] Yang Liu and Mirella Lapata. [19]ヤン・リューとミレラ・ラパタ。 0.53
Text summarization with pretrained encoders. プリトレーニングエンコーダによるテキスト要約 0.73
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3730–3740, Hong Kong, China, November 2019. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)、2019年11月第3730-3740ページ、香港、中国、2019年11月。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 3730-3740頁、香港、中国、2019年11月。
0.76
Association for Computational Linguistics. doi: 10.18653/v1/D19-1387 . 計算言語学会会員。 doi: 10.18653/v1/d19-1387 。 0.45
URL https://www.aclweb.o rg/anthology/D19-138 7. URL https://www.aclweb.o rg/anthology/D19-138 7 0.39
[20] Yang Liu, Sheng Shen, and Mirella Lapata. [20]ヤン・リュー、シェン・シェン、ミレラ・ラパタ。 0.41
Noisy self-knowledge distillation for text summa- テキスト要約のためのノイズ自己知識蒸留- 0.51
rization. arXiv preprint arXiv:2009.07032, 2020. ライズ arXiv preprint arXiv:2009.07032, 2020 0.58
[21] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. [21]Shashi Narayan、Shay B. Cohen、Mirrella Lapata。 0.63
Don’t give me the details, just the summary! 詳細は説明しないでください。 0.42
topic-aware convolutional neural networks for extreme summarization. 極端要約のための話題認識畳み込みニューラルネットワーク 0.69
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium, October-November 2018. 2018 Conference on Empirical Methods in Natural Language Processing, page 1797–1807, Brussels, Belgium, October–11 (英語) 0.79
Association for Computational Linguistics. doi: 10.18653/v1/D18-1206 . 計算言語学会会員。 doi: 10.18653/v1/d18-1206 。 0.45
URL https://www.aclweb.o rg/anthology/D18-120 6. URL https://www.aclweb.o rg/anthology/D18-120 6 0.39
[22] Ani Nenkova and Kathleen McKeown. Ani Nenkova氏とKathleen McKeown氏。 0.57
Automatic summarization. Foundations and Trends in 自動要約。 基礎と動向 0.51
Information Retrieval, 5(2–3):103–233, 2011. Information Retrieval, 5(2-3):103–233, 2011 0.77
[23] Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. Myle Ott氏、Sergey Edunov氏、Alexei Baevski氏、Angela Fan氏、Sam Gross氏、Nathan Ng氏、David Grangier氏、Michael Auli氏。 0.73
fairseq: A fast, extensible toolkit for sequence modeling. fairseq: シーケンスモデリングのための高速で拡張可能なツールキット。 0.67
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), pages 48–53, Minneapolis, Minnesota, June 2019. 北米計算言語学会の2019年会議(Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), page 48–53, Minneapolis, Minnesota, June 2019)に収録。 0.77
Association for Computational Linguistics. doi: 10.18653/v1/N19-4009 . 計算言語学会会員。 doi: 10.18653/v1/n19-4009 。 0.45
URL https://www.aclweb. url https://www.aclweb。 0.65
org/anthology/N19-40 09. org/アンソロジー/N19-4009。 0.28
[24] Gabriel Pereyra, George Tucker, Jan Chorowski, Lukasz Kaiser, and Geoffrey E. Hinton. Gabriel Pereyra氏、George Tucker氏、Jan Chorowski氏、Lukasz Kaiser氏、Geoffrey E. Hinton氏。 0.68
Regularizing neural networks by penalizing confident output distributions. 信頼出力分布のペナルティ化によるニューラルネットワークの正規化 0.67
In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Workshop Track Proceedings. 第5回Learning Representations, ICLR 2017, Toulon, France, April 24-26, Workshop Track Proceedings
訳抜け防止モード: 第5回学習表現に関する国際会議, iclr 2017, toulon フランス、2017年4月24日~26日。
0.68
OpenReview.net, 2017. 2017年、OpenReview.net。 0.65
URL https://openreview.n et/ forum?id=HyhbYrGYe. URL https://openreview.n et/ forum?id=HyhbYrGYe 0.70
[25] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford氏、Jeffrey Wu氏、Rewon Child氏、David Luan氏、Dario Amodei氏、Ilya Sutskever氏。 0.69
Language models are unsupervised multitask learners. 言語モデルは教師なしマルチタスク学習者である。 0.60
OpenAI blog, 1(8):9, 2019. OpenAI blog, 1(8):9, 2019。 0.90
[26] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. [26]Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu。 0.78
Exploring the limits of transfer learning with a unified text-to-text transformer. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.82
Journal of Machine Learning Research, 21:1–67, 2020. Journal of Machine Learning Research, 21:1–67, 2020 0.88
[27] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. [27]Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.61
SQuAD: 100,000+ In Proceedings of the 2016 Conference on questions for machine comprehension of text. SQuAD: 10,000+ 2016 Conferenceにおける機械によるテキストの理解に関する質問の成果。 0.77
Empirical Methods in Natural Language Processing, pages 2383–2392, Austin, Texas, November 2016. Empirical Methods in Natural Language Processing, pages 2383–2392, Austin, Texas, November 2016 0.88
Association for Computational Linguistics. doi: 10.18653/v1/D16-1264 . 計算言語学会会員。 doi: 10.18653/v1/d16-1264 。 0.45
URL https://www.aclweb.o rg/anthology/D16-126 4. URL https://www.aclweb.o rg/anthology/D16-126 4 0.39
[28] Adriana Romero, Nicolas Ballas, Samira Ebrahimi Kahou, Antoine Chassang, Carlo Gatta, and [28]Adriana Romero,Nicolas Ballas,Samira Ebrahimi Kahou,Antoine Chassang,Carlo Gatta, 0.74
Yoshua Bengio. Fitnets: Hints for thin deep nets. ヨシュア・ベンジオ Fitnets: 薄いディープネット用のヒント。 0.60
arXiv preprint arXiv:1412.6550, 2014. arXiv preprint arXiv:1412.6550, 2014 0.80
[29] Evan Sandhaus. 29] エヴァン・サンドハウス 0.55
The new york times annotated corpus. ニューヨークタイムズは コーパスに注釈を付けた 0.60
Linguistic Data Consortium, Philadel- 言語データコンソーシアム, philadel- 0.86
phia, 6(12):e26752, 2008. phia, 6(12):e26752, 2008。 0.86
11 11 0.85
英語(論文から抽出)日本語訳スコア
[30] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 30]Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf。 0.64
Distilbert, a distilled version of BERT: smaller, faster, cheaper and lighter. ディチルバート(ditilbert)は、より小さく、速く、安く、より軽量の蒸留酒である。 0.49
CoRR, abs/1910.01108, 2019. CoRR, abs/1910.01108, 2019。 0.72
URL http://arxiv.org/abs /1910.01108. URL http://arxiv.org/abs /1910.01108 0.46
[31] Abigail See, Peter J. Liu, and Christopher D. Manning. 31] アビゲイル・シー、ピーター・j・リュー、クリストファー・d・マニング 0.50
Get to the point: Summarization with pointer-generator networks. ポイントは、ポインタ生成ネットワークの要約です。 0.49
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073–1083, Vancouver, Canada, July 2017. 第55回計算言語学会年次大会(Volume 1: Long Papers)において,1073-1083頁,バンクーバー,カナダ,2017年7月 0.67
Association for Computational Linguistics. doi: 10.18653/v1/P17-1099 . 計算言語学会会員。 doi: 10.18653/v1/p17-1099 。 0.44
URL https://www.aclweb.o rg/anthology/P17-109 9. URL https://www.aclweb.o rg/anthology/P17-109 9。 0.32
[32] Rico Sennrich, Barry Haddow, and Alexandra Birch. 32]リコ・センリッヒ、バリー・ハドウ、アレクサンドラ・バーチ 0.40
Neural machine translation of rare words with subword units. サブワード単位を用いたレアワードのニューラルマシン翻訳 0.73
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715–1725, Berlin, Germany, August 2016. 第54回計算言語学会年次大会(Volume 1: Long Papers, page 1715-1725, Berlin, Germany, 2016年8月)に参加して 0.75
Association for Computational Linguistics. doi: 10.18653/v1/P16-1162 . 計算言語学会会員。 doi: 10.18653/v1/p16-1162 。 0.45
URL https://www.aclweb.o rg/anthology/P16-116 2. URL https://www.aclweb.o rg/anthology/P16-116 2 0.39
[33] Sam Shleifer and Alexander M Rush. [33]Sam Shleifer氏とAlexander M Rush氏。 0.92
Pre-trained summarization distillation. arXiv preprint 予混合蒸留法 arXiv プレプリント 0.66
arXiv:2010.13002, 2020. arXiv:2010.13002, 2020 0.70
[34] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. [34]カイタオ・ソング、Xu Tan、Tao Qin、Jianfeng Lu、Tie-Yan Liu。 0.72
Mass: Masked sequence to sequence pre-training for language generation. 英語: masked sequence to sequence pre-training for language generation。 0.84
In International Conference on Machine Learning, pages 5926–5936. 機械学習に関する国際会議』5926-5936頁。 0.75
PMLR, 2019. 2019年、PMLR。 0.72
[35] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. [35]Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou。 0.73
MobileBERT: a compact task-agnostic BERT for resource-limited devices. MobileBERT: リソース制限デバイス向けのコンパクトなタスク非依存BERT。 0.64
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2158–2170, Online, July 2020. 58th Annual Meeting of the Association for Computational Linguistics, page 2158–2170, Online, July 2020 (英語) 0.80
Association for Computational Linguistics. doi: 10.18653/v1/2020.acl -main.195. 計算言語学会会員。 doi: 10.18653/v1/2020.acl -main.195 0.42
URL https://www.aclweb.o rg/anthology/2020.ac l-main.195. URL https://www.aclweb.o rg/Anthology/2020.ac l-main.195 0.33
[36] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. [36]Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.69
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Proceedings of the 31st International Conference on Neural Information Processing Systems, pages 6000–6010, 2017. 2017年、第31回神経情報処理システム国際会議、6000-6010頁。
訳抜け防止モード: 第31回神経情報処理システム国際会議の開催にあたって 6000-6010頁、2017年。
0.76
[37] Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. Alex Wang氏、Amanpreet Singh氏、Julian Michael氏、Felix Hill氏、Omer Levy氏、Samuel Bowman氏。 0.72
GLUE: A multi-task benchmark and analysis platform for natural language understanding. GLUE: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.79
In Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 353–355, Brussels, Belgium, November 2018. 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, page 353–355, Brussels, Belgium, November 2018 (英語) 0.80
Association for Computational Linguistics. doi: 10.18653/v1/W18-5446 . 計算言語学会会員。 doi: 10.18653/v1/w18-5446 。 0.45
URL https://www.aclweb.o rg/ anthology/W18-5446. URL https://www.aclweb.o rg/ anthology/W18-5446 0.45
[38] Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. [38]wongui wang, old wei, li dong, hangbo bao, nan yang, 明州 0.42
Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. minilm: プレトレーニングトランスのタスク非依存圧縮のための深い自己固定蒸留法。 0.53
arXiv preprint arXiv:2002.10957, 2020. arXiv preprint arXiv:2002.10957, 2020 0.81
[39] Qizhe Xie, Minh-Thang Luong, Eduard Hovy, and Quoc V Le. [39]Qizhe Xie,Minh-Thang Luong,Eduard Hovy,Quoc V Le。 0.70
Self-training with noisy student improves imagenet classification. ノイズのある学生との自己学習は、イメージネットの分類を改善する。 0.39
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10687–10698, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10687–10698, 2020。 0.91
[40] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and Ming Zhou. [40]Canwen Xu、Wangchunshu Zhou、Tao Ge、Furu Wei、Ming Zhou。 0.65
BERT-of-theseus: Compressing BERT by progressive module replacing. BERT-of-theseus: プログレッシブモジュール置換によるBERT圧縮。 0.54
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7859–7869, Online, November 2020. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 7859-7869, Online, 2020年11月。 0.87
Association for Computational Linguistics. doi: 10.18653/v1/2020.emn lp-main.633. 計算言語学会会員。 doi: 10.18653/v1/2020.emn lp-main.633。 0.42
URL https://www.aclweb.o rg/anthology/2020.em nlp-main.633. URL https://www.aclweb.o rg/Anthology/2020.em nlp-main.633 0.33
[41] Sergey Zagoruyko and Nikos Komodakis. [41]セルゲイ・ザグルイコとニコス・コモダキス。 0.52
Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. 注意にもっと注意を払う: 注意伝達による畳み込みニューラルネットワークの性能向上。 0.71
In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. 第5回Learning Representations, ICLR 2017, Toulon, France, April 24-26, Conference Track Proceedings
訳抜け防止モード: 第5回学習表現国際会議, ICLR 2017, Toulon 2017年4月24日~26日、フランスで開催。
0.74
OpenReview.net, 2017. 2017年、OpenReview.net。 0.65
URL https://openreview.n et/ forum?id=Sks9_ajex. URL https://openreview.n et/ forum?id=Sks9_ajex 0.58
[42] Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter Liu. [42]Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter Liu。 0.67
Pegasus: Pre-training with extracted gap-sentences for abstractive summarization. Pegasus: 抽象的な要約のための抽出されたギャップ文による事前学習。 0.47
In International Conference on Machine Learning, pages 11328–11339. 機械学習に関する国際会議、11328-11339頁。 0.80
PMLR, 2020. PMLR、2020年。 0.88
12 12 0.85
英語(論文から抽出)日本語訳スコア
A Attention Visualization We present more examples of student models’ outputs and cross attention visualization here. 注意の可視化 学生モデルのアウトプットのさらなる例と、クロスアテンションの可視化について紹介する。 0.70
The student models are with the BART 12-6 setting and are trained on CNNDM and the following examples are from the validation set of CNNDM. 学生モデルはBART 12-6設定で、CNNDMでトレーニングされており、以下の例はCNNDMの検証セットからのものである。 0.70
Example 1 Table 8 shows system outputs from different student models and Figure 3 illustrates the corresponding cross attention weights of these student models. 例 1 表 8 は異なる学生モデルからのシステム出力を示し、図 3 はこれらの学生モデルの相互注意重みを示す。 0.88
Compared with the regular pseudo-labeling method ([Regular]), the summary generated by our method PLATEB12-6 λ=1.5 omits the modifier "Nirvana frontman" and "Nirvana bassist" of the person "Kurt Cobain" and "Krist Novoselic", respectively and the resulting summary is shorter and more abstractive. 通常の擬似ラベリング法 ([レギュラー]) と比較すると, PLATEB12-6 λ=1.5 法で生成された要約は, 修飾子 "Nirvana frontman" と "Nirvana bassist" をそれぞれ "Kurt Cobain" と "Krist Novoselic" で省略し, 結果として得られる要約は短く, より抽象的である。 0.80
The summary generated by our method PLATEB12-6 λ=2.0 contains the text "will premiere on HBO on May 4", which is at the end of the source document and included in the reference (i.e., summary worthy), but is ignored by [Regular]. 提案手法 PLATEB12-6 λ=2.0 で生成された要約文は、ソース文書の最後に記述されている「5月4日に HBO でプレミアを行う」というテキストを含むが、[規則] によって無視される。 0.70
It indicates that our method can alleviate the leading bias problem. 本手法は,先導バイアス問題を軽減できることを示す。 0.73
Figure 3 also shows that PLATEB12-6 図3はPLATEB12-6 0.77
λ=2.0 can access the tail part of the document. λ=2.0は文書の尾部にアクセスできる。 0.81
Table 8: Example 1 of reference summary ([Reference]), summary generated from student with the regular pseudo-labeling method ([Regular]), and summaries generated from students with PLATE ([PLATEB12-6 表8:参照要約([参照])の例1:正規擬似ラベル法([レギュラー])の学生から生成された要約、PLATE([PLATEB12-6)の学生から生成された要約 0.76
λ=1.5] and [PLATEB12-6 λ=1.5]と[PLATEB12-6] 0.49
λ=2.0]. [Reference]: The trailer surfaced on Wednesday. λ=2.0]. [参考]水曜日に公開されたトレーラー。 0.64
The documentary is winning raves. ドキュメンタリーは悪夢に勝っています。 0.54
It premieres on HBO on May 4. 5月4日にHBOで放送開始。 0.66
]: "Montage of Heck" is directed by Brett Morgen and offers an intimate portrayal [Regular of Nirvana frontman Kurt Cobain. ]『montage of heck』はbrett morgenが監督し、nirvanaのフロントマンであるkurt cobainが演じている。 0.57
The trailer features interviews with those closest to the performer, including family members, Courtney Love and Nirvana bassist Krist Novoselic. トレーラーには、家族、コートニー・ラブ、ニルヴァーナのベーシストであるkrist novoselicを含む出演者とのインタビューが特集されている。
訳抜け防止モード: トレーラーには、家族を含むパフォーマーに最も近い人とのインタビューが収録されている。 Courtney Love and Nirvana bassist Krist Novoselic
0.75
A companion book containing art and archival documents from Cobain is being produced to accompany the film. 映画に合わせて、コバーンのアートとアーカイブの文書を含むコンパニオンブックが制作されています。 0.64
[PLATEB12-6 λ=1.5]: "Montage of Heck" is directed by Brett Morgen and offers an intimate portrayal of Kurt Cobain. PLATEB12-6 λ=1.5]:"Montage of Heck"はブレット・モーゲンが監督し、クルト・コバーンの親密な描写を提供している。 0.54
The trailer features bits of interviews with those closest to the performer, including family members, Courtney Love and Krist Novoselic. トレーラーには、家族、コートニー・ラブ、クリスト・ノヴォセリックなど、出演者とのインタビューが少し含まれている。 0.62
A companion book containing art and archival documents from Cobain is being produced to accompany the film. 映画に合わせて、コバーンのアートとアーカイブの文書を含むコンパニオンブックが制作されています。 0.64
[PLATEB12-6 λ=2.0]: "Montage of Heck" is directed by Brett Morgen and will premiere on HBO on May 4. PLATEB12-6 λ=2.0]:"Montage of Heck"はブレット・モーゲンが監督し、5月4日にHBOで初演される。 0.66
A companion book containing art and archival documents from Cobain is being produced to accompany the documentary. コバーンの美術品や古文書を含む同伴本が制作され、ドキュメンタリーに付随している。 0.69
The soundtrack will include "a mind-blowing 12minute acoustic Cobain unheard track," Morgen says. サウンドトラックには「12分間のアコースティック・コバーンの未聴トラック」が含まれている。 0.61
Example 2 The second example is shown in Table 9 (outputs) and Figure 4 (attention visualization). 例2 2番目の例は、表9(アウトプット)と図4(アテンションビジュアライゼーション)に示されます。 0.79
In this example, the source document is relatively long (over 700 words). この例では、ソース文書は比較的長い(700語以上)。 0.77
As shown in Figure 4, the summary generated with the regular pseudo-labeling method Regular mainly focuses on the heading part of the source document (around the first 150 words), but our method PLATEB12-6 λ=2.0 takes into account the tokens in the front, middle and tail of the source document. 図4に示すように、正則な擬似ラベル法で生成された要約は、主にソースドキュメントの先頭部分(最初の150語前後)に焦点を当てるが、私たちのメソッドPLATEB12-6 λ=2.0は、ソースドキュメントの前、中、尾のトークンを考慮に入れている。 0.64
In Table 9, the summary from PLATEB12-6 λ=2.0 contains the key sentence "Peter Bergen: Pilots are not different from other people, but they can be careless, lazy, inattentive and reckless", which is similar to the reference sentence "Peter Garrison: Pilots don’t exist on different moral plane than the rest of us". 表9では、PLATEB12-6 λ=2.0の要約に「Peter Bergen: Pilots are not different with other people, but they can be careless, lazy, inattentive and reckless」というキー文が含まれている。
訳抜け防止モード: 表9では、PLATEB12 - 6 λ=2.0 の要約がキー文を含む。 Peter Bergen氏: パイロットは他の人たちと変わりません。 しかし、彼らは不注意で、怠け者で、不注意で、無謀です。 これは"Peter Garrison: Pilots do not exist on different moral plane"という参照文に似ています。
0.82
The sentence "the human mind is the blackest of boxes" in the reference, which appears at the tail of the source document, is also included in summaries of PLATEB12-6 λ=2.0. 引用中の「人間の心は箱の中で一番黒い」という文は、ソース文書の尾に現れ、platerb12-6 λ=2.0の要約にも含まれている。 0.71
This example again demonstrates that our method can alleviate the leading bias problem and can make the generated summary have better coverage of source documents. この例では、本手法が先進バイアス問題を緩和し、生成した要約がソース文書のカバレッジをより良くすることを示す。 0.70
13 13 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: Example 1 of visualization of cross attention weight when the student generate summary with different attention temperatures. 図3: 学生が異なる注意温度で要約を生成する際の横断的注意重量の可視化例1。 0.84
Table 9: Example 2 of reference summary ([Reference]), summary generated from student with the regular pseudo-labeling method ([Regular]), and summaries generated from students with PLATE ([PLATEB12-6 表9:参照要約([参照])の例2:正規擬似ラベル法([レギュラー])の学生から生成された要約、PLATE([PLATEB12-6)の学生から生成された要約 0.75
λ=1.5] and [PLATEB12-6 λ=1.5]と[PLATEB12-6] 0.49
λ=2.0]. [Reference]: Experts suspect first officer Andreas Lubitz locked pilot out of the cockpit of plane. λ=2.0]. 飛行機のコックピットからアンドレアス・ルビッツ(Andreas Lubitz)一等航海士がパイロットを閉じ込めたと専門家が指摘。 0.61
Peter Garrison: Pilots don’t exist on different moral plane than the rest of us, and the human mind is the blackest of boxes. Peter Garrison: パイロットは私たちの他と異なる道徳面に存在しません。
訳抜け防止モード: Peter Garrison: パイロットは私たちの他と異なる道徳面に存在しません。 人間の心は最も黒い箱です
0.70
]: Germanwings first officer Andreas Lubitz is one of a handful of airline pilots [Regular who have used their airplanes to combine suicide with mass murder. ドイツの航空宇宙局のアンドレアス・ルビッツ(andreas lubitz)一等飛行士は、飛行機を使って自殺と大量殺人を組み合わせる一握りのパイロットの一人です。 0.69
Frida Ghitis: Why is this thought at once so fascinating and so horrifying? Frida Ghitis: なぜこの考えがこれほど魅力的で恐ろしいのでしょうか? 0.84
It is because of the incompatibility between what we want to believe about flying and what we now see. それは、私たちが飛行について信じたいものと今見ているものの間に相容れないためです。 0.63
[PLATEB12-6 λ=1.5]: Andre Lubitz joins the short and infamous list of airline pilots who have used their airplanes to combine suicide with mass murder. PLATEB12-6 λ=1.5]:Andre Lubitz氏は、自身の飛行機で自殺と大量殺人を併用した航空会社パイロットの短命で悪名高いリストに加わる。 0.73
Frida Ghitis: Why is this thought at once so fascinating and so horrifying? Frida Ghitis: なぜこの考えがこれほど魅力的で恐ろしいのでしょうか? 0.84
It is because of the incomp compatibility between what we want to believe about flying and what we now see. それは、私たちが空飛ぶことを信じたいものと、今見ているものとの相容れない互換性のためです。
訳抜け防止モード: 飛行について信じたいものとの互換性が欠如しているからです そして今私たちが見ているもの。
0.67
[PLATEB12-6 λ=2.0]: Germanwings first officer Andreas Lubitz is one of a handful of pilots who have used their airplanes to combine suicide with mass murder. PLATEB12-6 λ=2.0]:ジャーマンウィングスの最高士官アンドレアス・ルビッツは、飛行機を使って自殺と大量殺人を経験した少数のパイロットの1人です。 0.67
Peter Bergen: Pilots are not different from other people, but they can be careless, lazy, inattentive and reckless. Peter Bergen氏: パイロットは他の人たちと変わりませんが、不注意で怠け者で、不注意で、無謀です。 0.69
He says the human mind is the blackest of boxes; no one can peer inside it. 人間の心は箱の中で一番黒く、中を覗くことはできない、と彼は言う。 0.66
14 010203040506070Token index in summary0255075100125 150175200Token index in documentAttention Temperature: 640102030405060Token index in summary0255075100125 150175200Attention Temperature: 960102030405060Token index in summary0255075100125 150175200Attention Temperature: 1280.10.20.30.40.50. 6 14 0102040406070Token index in summary 02550751001251501752 00 Token index in documentAttention temperature: 6402020404060 Token index in summary 02550501001251505052 00 Attention temperature: 9601020404060 Token index in summary 02550751001251501752 00 Attention temperature: 1280.10.20.30.50.6 0.71
英語(論文から抽出)日本語訳スコア
Figure 4: Example 2 of visualization of cross attention weight when the student generate summaries with different attention temperatures. 図4: 学生が注意温度の異なる要約を生成する際の横断的注意重量の可視化例2。 0.85
15 0102030405060Token index in summary0100200300400 500600700Token index in documentAttention Temperature: 640102030405060Token index in summary0100200300400 500600700Attention Temperature: 96010203040506070Tok en index in summary0100200300400 500600700Attention Temperature: 1280.10.20.30.40.50. 6 15 0102040405060 Token index in summary 01002004004004006007 00 Token index in documentAttention temperature: 640102040405060 Token index in summary 01002004004004004005 060Attention temperature: 960102030405070 Token index in summary 01002004004004006007 00Attention temperature: 1280.10.20.30.50.6 0.72
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。