論文の概要、ライセンス

# (参考訳) NewsBERT: インテリジェントニュースアプリケーションのための事前学習型言語モデル [全文訳有]

NewsBERT: Distilling Pre-trained Language Model for Intelligent News Application ( http://arxiv.org/abs/2102.04887v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yang Yu, Tao Qi, Yongfeng Huang, Qi Liu(参考訳) BERTのような事前訓練言語モデル(PLM)はNLPに大きな進歩をもたらした。 ニュース記事は通常リッチなテキスト情報を含み、PLMはニュースレコメンデーションや検索のような様々なインテリジェントなニュースアプリケーションのためのニューステキストモデリングを強化する可能性がある。 しかし、ほとんどの既存のPLMは、数億のパラメータを持つ巨大なサイズです。 多くのオンラインニュースアプリケーションは、数百万のユーザに低レイテンシ耐性を提供する必要があるため、これらのシナリオにplmを組み込むことには大きな課題がある。 知識蒸留技術は、大きなPLMをはるかに小さく圧縮し、優れた性能を維持することができる。 しかし、既存の言語モデルは、Wikipediaのような一般的なコーパスで事前に訓練され、蒸留されています。 本稿では,効率的なニュースインテリジェンスのためにPLMを蒸留できるNewsBERTを提案する。 本研究では,教師モデルと生徒モデルの両方を協調的に学習するための,教師と学生の合同学習と蒸留の枠組みを設計し,教師モデルの学習経験から学習できる。 また,教師モデルの勾配を生徒モデルの更新に組み込むことにより,教師モデルで学習した有用な知識をよりよく伝達する運動量蒸留法を提案する。 3つのタスクを持つ2つの実世界のデータセットに対する大規模な実験は、NewsBERTがより小さなモデルで様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に改善できることを示している。

Pre-trained language models (PLMs) like BERT have made great progress in NLP. News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelligent news applications like news recommendation and retrieval. However, most existing PLMs are in huge size with hundreds of millions of parameters. Many online news applications need to serve millions of users with low latency tolerance, which poses huge challenges to incorporating PLMs in these scenarios. Knowledge distillation techniques can compress a large PLM into a much smaller one and meanwhile keeps good performance. However, existing language models are pre-trained and distilled on general corpus like Wikipedia, which has some gaps with the news domain and may be suboptimal for news intelligence. In this paper, we propose NewsBERT, which can distill PLMs for efficient and effective news intelligence. In our approach, we design a teacher-student joint learning and distillation framework to collaboratively learn both teacher and student models, where the student model can learn from the learning experience of the teacher model. In addition, we propose a momentum distillation method by incorporating the gradients of teacher model into the update of student model to better transfer useful knowledge learned by the teacher model. Extensive experiments on two real-world datasets with three tasks show that NewsBERT can effectively improve the model performance in various intelligent news applications with much smaller models.
公開日: Tue, 9 Feb 2021 15:41:12 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
NewsBERT: Distilling Pre-trained Language Model for NewsBERT: 事前訓練された言語モデルを蒸留する 0.65
Intelligent News Application インテリジェントニュースアプリケーション 0.75
Chuhan Wu1, Fangzhao Wu2, Yang Yu3, Tao Qi1, Yongfeng Huang1, Qi Liu3 Wu1, Fangzhao Wu2, Yang Yu3, Tao Qi1, Yongfeng Huang1, Qi Liu3 0.89
1Tsinghua University, Beijing 100084, China 1清華大学、北京100084、中国。 0.75
2Microsoft Research Asia, Beijing 100080, China 2Microsoft Research Asia, Beijing 100080, China 0.94
3University of Science and Technology of China, Hefei 230027, China {wuchuhan15,wufangzha o,taoqi.qt}@gmail.com,tomyu613@ icloud.com, 3University of Science and Technology of China, Hefei 230027, China {wuchuhan15,wufangzha o,taoqi.qt}@gmail.com,tomyu613@ icloud.com 0.90
yfhuang@tsinghua.edu .cn,qiliuql@ustc.edu .cn yfhuang@tsinghua.edu .cn,qiliuql@ustc.edu .cn 0.59
1 2 0 2 b e F 9 1 2 0 2 b e F 9 0.85
] L C . s c [ ] L C。 sc [ 0.62
1 v 7 8 8 4 0 1 v 7 8 8 4 0 0.85
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
ABSTRACT Pre-trained language models (PLMs) like BERT have made great progress in NLP. BERTのようなABSTRACTプリトレーニング言語モデル(PLM)はNLPで大きな進歩を遂げました。 0.76
News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelligent news applications like news recommendation and retrieval. ニュース記事は通常リッチなテキスト情報を含み、PLMはニュースレコメンデーションや検索のような様々なインテリジェントなニュースアプリケーションのためのニューステキストモデリングを強化する可能性がある。 0.73
However, most existing PLMs are in huge size with hundreds of millions of parameters. しかし、ほとんどの既存のPLMは、数億のパラメータを持つ巨大なサイズです。 0.67
Many online news applications need to serve millions of users with low latency tolerance, which poses huge challenges to incorporating PLMs in these scenarios. 多くのオンラインニュースアプリケーションは、数百万のユーザに低レイテンシ耐性を提供する必要があるため、これらのシナリオにplmを組み込むことには大きな課題がある。 0.51
Knowledge distillation techniques can compress a large PLM into a much smaller one and meanwhile keeps good performance. 知識蒸留技術は、大きなPLMをはるかに小さく圧縮し、優れた性能を維持することができる。 0.70
However, existing language models are pre-trained and distilled on general corpus like Wikipedia, which has some gaps with the news domain and may be suboptimal for news intelligence. しかし、既存の言語モデルは、Wikipediaのような一般的なコーパスで事前に訓練され、蒸留されています。
訳抜け防止モード: しかし、既存の言語モデルは、ウィキペディアのような一般的なコーパスで事前訓練され、蒸留されている。 ニュースドメインといくつかのギャップがあり、ニュースインテリジェンスに最適かもしれません。
0.55
In this paper, we propose NewsBERT, which can distill PLMs for efficient and effective news intelligence. 本稿では,効率的なニュースインテリジェンスのためにPLMを蒸留できるNewsBERTを提案する。 0.75
In our approach, we design a teacherstudent joint learning and distillation framework to collaboratively learn both teacher and student models, where the student model can learn from the learning experience of the teacher model. 本アプローチでは,教師モデルと生徒モデルの両方を協調的に学習するための教員共同学習と蒸留フレームワークを設計し,教師モデルの学習経験から学生モデルを学ぶことができる。 0.90
In addition, we propose a momentum distillation method by incorporating the gradients of teacher model into the update of student model to better transfer useful knowledge learned by the teacher model. また,教師モデルの勾配を生徒モデルの更新に組み込むことにより,教師モデルで学習した有用な知識をよりよく伝達する運動量蒸留法を提案する。 0.89
Extensive experiments on two real-world datasets with three tasks show that NewsBERT can effectively improve the model performance in various intelligent news applications with much smaller models. 3つのタスクを持つ2つの実世界のデータセットに対する大規模な実験は、NewsBERTがより小さなモデルで様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に改善できることを示している。 0.62
KEYWORDS Knowledge distillation, Pre-trained language model, News application, BERT KEYWORDS ナレッジ蒸留, 事前学習言語モデル, ニュースアプリケーション, BERT 0.81
ACM Reference Format: Chuhan Wu1, Fangzhao Wu2, Yang Yu3, Tao Qi1, Yongfeng Huang1, Qi Liu3. ACM参照フォーマット:Wu1、Fangzhao Wu2、Yang Yu3、Tao Qi1、Yongfeng Huang1、Qi Liu3。 0.82
2021. NewsBERT: Distilling Pre-trained Language Model for Intelligent News Application. 2021. NewsBERT: インテリジェントニュースアプリケーションのための事前学習型言語モデルを蒸留する。 0.77
In Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2021), Jennifer B. Sartor and Theo D’Hondt (Eds.). ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2021)では、Jennifer B. SartorとTheo D’Hondt (Eds.)が発表した。 0.83
ACM, New York, NY, USA, Article 4, 9 pages. ACM, New York, NY, USA, Article 4, 9 pages 0.76
https://doi. https://doi.com。 0.50
org/10.475/123_4 org/10.475/123_4 0.24
Permission to make digital or hard copies of part or all of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. デジタル又はハード又はこの作品の一部又は全部を個人または教室で使用するための許可は、その複製が利益または商業上の利益のために作成、配布されず、かつ、この通知と第1ページの全引用を添付して、手数料なしで与えられる。
訳抜け防止モード: この作品の一部又は全部のデジタル又はハードコピーを個人または教室での使用許可 手数料なしで与えられます 利益または商業上の優位性のためにコピーが作成または配布されない そのコピーには この通知と 最初のページの全文が書かれています
0.77
Copyrights for third-party components of this work must be honored. この作品のサードパーティコンポーネントの著作権を尊重しなければならない。 0.59
For all other uses, contact the owner/author(s). 他のすべての用途については、所有者/著者に連絡してください。 0.45
KDD 2021, August 2021, Singapore © 2021 Copyright held by the owner/author(s). KDD 2021, August 2021, Singapore © 2021 所有者/著者が保有する著作権。 0.82
ACM ISBN 123-4567-24-567/08/0 6. ACM ISBN 123-4567-24-567/08/0 6 0.40
https://doi.org/10.4 75/123_4 https://doi.org/10.4 75/123_4 0.29
1 INTRODUCTION Pre-trained language models like BERT [8] and GPT [23] have achieved remarkable success in various NLP applications [16, 42]. BERT [8] や GPT [23] のような事前学習型言語モデルは,様々な NLP アプリケーション [16, 42] で顕著な成功を収めている。 0.80
These powerful language models are usually in huge size with hundreds of millions of parameters [22]. これらの強力な言語モデルは、通常、数億のパラメータを持つ巨大なサイズです [22]。 0.81
For example, the BERT-Base model contains about 110M parameters and 12 Transformer [33] layers, which usually raises a high demand of computational resources in model training and inference. 例えば、BERT-Baseモデルには約110Mのパラメータと12のTransformer[33]レイヤが含まれており、モデルトレーニングや推論において高い計算リソースが要求される。 0.71
However, many online applications need to provide services for a large number of concurrent users and the tolerance of latency is often low, which hinders the deployment of large-scale language models in these systems [24]. しかし、多くのオンラインアプリケーションは、多数の同時ユーザにサービスを提供する必要があり、レイテンシの許容度が低いことがしばしばであり、これらのシステムにおける大規模な言語モデルの展開を妨げる[24]。 0.72
In recent years, online news websites such as MSN News and Google News have gained huge popularity for users to digest digital news [37]. 近年,msn news や google news などのオンラインニュースサイトが,デジタルニュースを消化する手段として大きな人気を集めている [37]。 0.85
These news websites usually involve a series of intelligent news applications like automatic news topic classification [38], news headline generation [31] and news recommendation [19]. これらのニュースサイトは通常、ニューストピックの自動分類[38]、ニュース見出し生成[31]、ニュースレコメンデーション[19]など、一連のインテリジェントなニュースアプリケーションを含んでいる。 0.80
In these applications, text modeling is a critical technique because news articles usually contain rich textual content [40]. これらのアプリケーションでは、ニュース記事は通常豊富なテキストコンテンツを含むので、テキストモデリングは重要な技術です[40]。 0.68
Thus, these applications would benefit a lot from the powerful language understanding ability of pre-trained language models if they could be incorporated in a efficient way, which further has the potential to improve the news reading experience of millions of users. したがって、これらのアプリケーションは、もしそれらが効率的な方法で組み込まれることができるなら、事前学習された言語モデルの強力な言語理解能力から多くの恩恵を受ける。
訳抜け防止モード: したがって、これらのアプリケーションは、効率的な方法で組み込むことができれば、事前訓練された言語モデルの強力な言語理解能力から多くの恩恵を受けるだろう。 さらに、何百万というユーザーのニュース閲覧体験を改善する可能性がある。
0.70
Knowledge distillation is a technique that can compress a cumbersome teacher model into a lighter-weight student model by transferring useful knowledge [11, 14]. 知識蒸留は, 有意義な知識を伝達することにより, 煩雑な教師モデルを軽量な学生モデルに圧縮する技術である[11, 14]。 0.71
It has been employed to compress many huge pre-trained language models into much smaller versions and meanwhile keep most of the original performance [13, 24, 29, 35]. 多くの巨大な学習済み言語モデルをはるかに小さなバージョンに圧縮し、その間に元のパフォーマンスの大部分を維持するために使用されています [13, 24, 29, 35]。 0.75
For example, Sanh et al. 例えば、Sanh et al。 0.66
[24] proposed a DistilBERT approach, which learns the student model from the soft target probabilities of the teacher model by using a distillation loss with softmax-temperature [12], and they regularized the hidden state directions of the student and teacher models to be aligned. [24]は,ソフトマックス温度[12]の蒸留損失を用いて,教師モデルのソフトターゲット確率から学生モデルを学習し,生徒と教師モデルの隠れた状態方向を規則化したディチルベルト手法を提案した。 0.77
Jiao et al. Jiao et al。 0.79
[13] proposed TinyBERT, which is an improved version of DistilBERT. 13] DistilBERTの改良版であるTinyBERTを提案しました。 0.74
In addition to the distillation loss, they proposed to regularize the token embeddings, hidden states and attention heatmaps of both student and teacher models to be aligned via the mean squared error loss. 蒸留損失に加えて、彼らは平均二乗誤差損失を介して整列される学生と教師モデルのトークン埋め込み、隠れた状態および注意熱マップを正規化することを提案した。 0.71
These methods usually learn the teacher and student models successively, where the student can only learn from the results of the teacher model. これらの方法は通常、教師モデルと学生モデルを順次学習し、生徒は教師モデルの結果からのみ学ぶことができます。 0.77
However, the learning experience of the teacher may also be useful for the learning of student model [44], which is not considered by existing methods. しかし,教師の学習経験は,既存の手法では考慮されていない学習モデル [44] の学習にも有用である可能性がある。 0.88
In addition, the corpus for pre-training and distilling general language models (e.g., WikiPedia) may also have some domain shifts with news corpus, which may not be optimal for intelligent news applications. さらに、一般的な言語モデル(例えばWikiPedia)の事前トレーニングと蒸留のためのコーパスも、ニュースコーパスとのドメインシフトがあり、インテリジェントなニュースアプリケーションには適していないかもしれない。 0.65
英語(論文から抽出)日本語訳スコア
In this paper, we propose a NewsBERT approach that can distill pre-trained language models for various intelligent news applications. 本稿では,様々な知的ニュースアプリケーションのための事前学習言語モデルを抽出できるNewsBERTアプローチを提案する。 0.86
In our approach, we design a teacher-student joint learning and distillation framework to collaboratively learn both teacher and student models in news intelligence tasks by sharing the parameters of top layers, and meanwhile distill the student model by regularizing the output soft probabilities and hidden representations. そこで本研究では,教師と学生の共用学習と蒸留の枠組みを設計し,トップレイヤのパラメータを共有することで,ニュースインテリジェンスタスクにおける教師と学生のモデルの両方を協調的に学習し,一方,出力ソフト確率と隠れ表現を規則化して学生モデルを蒸留する。 0.72
In this way, the student model can learn from the teacher’s learning experience to better imitate the teacher model, and the teacher can also be aware of the learning status of the student model to enhance student teaching. このようにして、生徒モデルは教師の学習経験から学習し、教師のモデルをよりよく模倣することができ、教師は生徒の教育を強化するために生徒モデルの学習状況を知ることができます。 0.80
In addition, we propose a momentum distillation method by using the gradients of the teacher model to boost the gradients of student model in a momentum way, which can better transfer useful knowledge learned by the teacher model to enhance the learning of student model. さらに,教師モデルの勾配を用いて,学生モデルの勾配を運動量的に向上させることにより,教師モデルで学習した有用な知識を伝達し,生徒モデルの学習を促進するモーメント蒸留手法を提案する。 0.83
We conduct extensive experiments on two real-world datasets that involve three news intelligence tasks. 我々は3つのニュースインテリジェンスタスクを含む2つの実世界のデータセットについて広範な実験を行った。 0.52
The results validate that our proposed NewsBERT approach can consistently improve the performance of these tasks using much smaller models and outperform many baseline methods for distilling pre-trained language models. その結果,提案手法は,より小さなモデルを用いて,これらのタスクの性能を一貫して向上させ,事前学習した言語モデルを蒸留する多くのベースラインメソッドを上回ることを検証した。 0.63
language models for intelligent news applications. インテリジェントニュースアプリケーションのための言語モデル。 0.82
The main contributions of this work include: • We propose a NewsBERT approach to distill pre-trained • We propose a teacher-student joint learning and distillation framework to collaboratively learn both teacher and student models by sharing useful knowledge obtained by their learning process. 本研究の主な貢献は, • 事前学習した蒸留のためのニューズバートアプローチを提案する • 学習プロセスで得られた有用な知識を共有することによって, 教師と生徒のモデルの両方を協調的に学習するための教師と学生の合同学習フレームワークを提案する。 0.73
• We propose a momentum distillation method by using the gradient of the teacher model to boost the learning of student model in a momentum manner. •教師モデルのグラデーションを用いて、生徒モデルの学習を勢い的に促進させることにより、運動量蒸留法を提案する。 0.85
• Extensive experiments on real-world datasets validate that our method can effectively improve the model performance in various intelligent news applications in an efficient way. 以上の結果から,本手法が様々な知的ニュースアプリケーションにおけるモデル性能を効果的に向上できることが検証された。 0.71
2 RELATED WORK 2.1 Pre-trained Language Model Distillation In recent years, many researchers explore to use knowledge distillation techniques to compress large-scale PLMs into smaller ones [13, 18, 24, 29, 30, 32, 34, 35, 41]. 2 関連ワーク 2.1 事前訓練された言語モデル蒸留 近年、多くの研究者が知識蒸留技術を使用して大規模なPLMを小さなものに圧縮しています [13, 18, 24, 29, 30, 32, 34, 35, 41]。 0.79
For example, Tang et al. 例えば、Tang et al。 0.58
[32] proposed a BiLSTMSOFT method that distills the BERT model into a single layer BiLSTM using the distillation loss in downstream tasks. 32] 下流タスクにおける蒸留損失を用いてBERTモデルを単層BiLSTMに蒸留するBiLSTMSOFT法を提案した。 0.79
Sanh et al. Sanh et al. 0.85
[24] proposed a DistilBERT approach, which distills the student model at the pre-training stage using the distillation loss and a cosine embedding loss that aligns the hidden states of teacher and student models. [24] は, 予習段階の学生モデルを蒸留する DistilBERT アプローチを提案し, 蒸留損失と, 教師モデルと学生モデルの隠れ状態に整合したcosine 埋込み損失を用いた。 0.80
Sun et al. [29] proposed a patient knowledge distillation method for BERT compression named BERT-PKD, which distills the student model by learning from teacher’s output soft probabilities and hidden states produced by intermediate layers. 太陽など。 [29]は,教師の出力ソフト確率と中間層が生成する隠れ状態から学習して学生モデルを蒸留するBERT-PKDというBERT圧縮の患者知識蒸留法を提案した。 0.63
Wang et al. [35] proposed MiniLM, which employs a deep self-attention distillation method that uses the KL-divergence loss between teacher’s and student’s attention heatmaps computed by query-key inner-product and the value relations computed by valuevalue inner-product. 王等。 35] 提案するminilmは,教師と生徒の注意熱マップ間のkl-divergence損失をクエリキー内積で計算し,価値内積で計算した値関係を用いて,深い自己付着蒸留法を用いる。 0.66
Jiao et al. Jiao et al。 0.79
[13] proposed TinyBERT, which distills the BERT model at both pre-training and fine-tuning stages by using the distillation loss and the MSE loss between the embeddings, hidden states and attention heatmaps. 提案したTinyBERTは, 埋込物, 隠蔽状態, 注目熱マップ間の蒸留損失とMSE損失を用いて, BERTモデルを予混合および微調整の段階で蒸留する。 0.75
There are also a few works that explore to distill pre-trained language models for specific downstream tasks such as document retrieval [6, 17]. もあります。 文書検索 [6, 17] のような特定の下流タスクのために、事前訓練された言語モデルを蒸留するいくつかの研究。 0.69
For example, Lu et al. 例えば、Lu et al。 0.66
[17] proposed a TwinBERT approach for document retrieval, which employs a two-tower architecture with two separate language models to encode the query and document, respectively. 17]は、クエリとドキュメントをエンコードする2つの別々の言語モデルを備えた2タワーアーキテクチャを採用した文書検索のためのTwinBERTアプローチを提案した。 0.74
They used the distillation loss function to compress the two BERT models into smaller ones. 彼らは2つのBERTモデルをより小さなものに圧縮するために蒸留損失関数を使用した。 0.56
These methods usually train the teacher and student models successively, i.e., distilling the student model based on a well-tuned teacher model. これらの方法は通常、教師モデルと学生モデルを連続的に訓練し、よく調整された教師モデルに基づいて生徒モデルを蒸留する。 0.69
However, the useful experience evoked by the teacher’s learning process cannot be exploited by the student and the teacher is also not aware of the student’s learning status. しかし、教師の学習プロセスによって誘発される有用な経験は、学生が利用することはできませんし、教師も生徒の学習状況を認識していません。 0.76
In addition, the corpus for pre-training and distilling these language models usually has some domain shifts with news texts. 加えて、これらの言語モデルの事前学習と蒸留のためのコーパスは、通常、ニューステキストによるドメインシフトがある。 0.59
Thus, it may not be optimal to apply the off-theshelf distilled language models to intelligent news applications. したがって、既成の蒸留言語モデルをインテリジェントニュースアプリケーションに適用することは最適ではないかもしれない。 0.68
In this work, we propose a NewsBERT method to distill pre-trained language models for intelligent news applications, which can effectively reduce the computational cost of PLMs and meanwhile achieve promising performance. 本研究では,PLMの計算コストを効果的に削減し,その間に有望な性能を達成できる,インテリジェントニュースアプリケーションのための学習済み言語モデルを蒸留するNewsBERT手法を提案する。 0.78
We propose a teacher-student joint learning and distillation framework, where the student model can exploit the useful knowledge produced by the learning process of the teacher model. 本研究では,教師モデルの学習プロセスによって得られた有用な知識を,生徒モデルが活用できる教員共同学習・蒸留フレームワークを提案する。 0.84
In addition, we propose a momentum distillation method that integrates the gradient of the teacher model into the student model gradient as a momentum to boost the learning of the student. また,教師モデルのグラデーションを生徒モデルグラデーションに統合し,生徒の学習を促進する運動量として,モーメント蒸留法を提案する。 0.69
2.2 Text Modeling for News Intelligence Online news platforms usually involve various intelligent news applications like news topic classification [4], fake news detection [26], news headline generation [9], news retrieval [5] and personalized news recommendation [39]. 2.2 ニュースインテリジェンスオンラインニュースプラットフォームにおけるテキストモデリングは,ニューストピック分類[4],偽ニュース検出[26],ニュース見出し生成[9],ニュース検索[5],パーソナライズされたニュースレコメンデーション[39]など,さまざまなインテリジェントなニュースアプリケーションに関わることが多い。 0.86
Since news articles usually contain rich textual information, learning accurate news representations based on their texts is usually a core problem in these applications [40]. ニュース記事は通常豊富なテキスト情報を含んでいるので、テキストに基づいて正確なニュース表現を学ぶことは、通常、これらのアプリケーションにおける中核的な問題です[40]。 0.63
Many prior works on news intelligence use handcrafted features to represent news texts. ニュースインテリジェンスに関する多くの先行研究は、ニューステキストを表現するために手作りの機能を使用している。 0.47
For example, Bourgonje et al. 例えば、bourgonje et al。 0.64
[3] used the TF-IDF features extracted from the news headline and body as well as their lengths to represent news. [3]ニュースの見出しと身体から抽出したTF-IDF特徴と,その長さを用いてニュースを表現した。 0.72
Lian et al. Lian et al. 0.85
[15] used the topic and entity features extracted from the news title to represent news texts. [15]はニュースタイトルから抽出したトピックとエンティティ機能を使ってニューステキストを表現した。 0.77
However, these methods usually require heavy effort on manual feature engineering and their features may not be adaptable across different news applications. しかしながら、これらの手法は通常、手動のフィーチャエンジニアリングに重きを置き、それらの機能は異なるニュースアプリケーションに適応できない可能性がある。 0.60
In addition, handcrafted features may not be optimal in capturing the semantic information of news content, which is critical for news intelligence. さらに、手作りの機能は、ニュースインテリジェンスにとって重要なニュースコンテンツのセマンティック情報を取得するのに最適ではないかもしれない。 0.69
In recent years, many works explore to use deep learning based techniques to model news texts [25, 36, 39]. 近年では、深層学習に基づく手法を用いてニューステキストのモデル化を試みている作品が多い[25, 36, 39]。 0.79
For example, Shu et al. 例えば、shu et al。 0.58
[25] proposed a fake news detection approach named dEFEND, which uses a hierarchical Bi-LSTM model to learn sentence representations from words and then learn news representations from sentence representations. 文表現から文表現を学習し,文表現からニュース表現を学習する階層的Bi-LSTMモデルを用いて,dEFENDという偽ニュース検出手法を提案する。 0.76
Wu et al. [39] proposed an NRMS approach for news recommendation that uses multi-head self-attention networks to learn news representations. 武等。 39]は、ニュース表現を学ぶためにマルチヘッドのセルフアテンションネットワークを使用するニュースレコメンデーションのためのNRMSアプローチを提案した。 0.49
There are also a few methods that explored to use pre-trained language models to model news texts for news classification. 事前訓練された言語モデルを用いてニュース分類のためのニューステキストをモデル化する手法もいくつかある。 0.74
For instance, Sun et al. 例えば、Sun et al。 0.66
[28] studied how to fine-tune the BERT model for text classification (e.g., news topic classification). [28]は、テキスト分類のためのBERTモデルを微調整する方法(ニューストピック分類など)を研究した。 0.69
However, besides news classification, incorporating pre-trained language models in many しかし、ニュース分類の他に、事前学習された言語モデルが多数含まれている。 0.53
英語(論文から抽出)日本語訳スコア
Figure 1: The framework of our NewsBERT approach in a typical news classification task. 図1: 典型的なニュース分類タスクにおけるNewsBERTアプローチのフレームワーク。 0.77
intelligent news applications like personalized news recommendation is less studied due to the huge computational costs of PLMs. パーソナライズされたニュースレコメンデーションのようなインテリジェントなニュースアプリケーションは、PLMの膨大な計算コストのためにあまり研究されていません。 0.52
In our work, we propose to distill pre-trained language models into light-weight models for intelligent news applications, which has the potential to improve the performance of various news related tasks and improve the news reading experience of massive users. 本研究では、様々なニュース関連タスクのパフォーマンスを改善し、大規模ユーザーのニュース読取体験を向上させる可能性があるインテリジェントニュースアプリケーションのために、事前に訓練された言語モデルを軽量モデルに蒸留することを提案する。 0.68
3 METHODOLOGY In this section, we introduce our NewsBERT approach that can distill pre-trained language models for intelligent news applications. 3 MethodOLOGY この節では、知的ニュースアプリケーションのための事前学習言語モデルを抽出できるNewsBERTアプローチを紹介します。 0.78
We will first introduce the teacher-student joint learning and distillation framework of NewsBERT by using the news classification task as a representative example, then introduce our proposed momentum distillation method, and finally introduce how to learn NewsBERT in more complicated tasks like news recommendation. まず、ニュース分類タスクを代表例として、NewsBERTの教員・学生共同学習・蒸留フレームワークを紹介し、提案されたモーメント蒸留方法を紹介し、ニュースレコメンデーションなどのより複雑なタスクでNewsBERTの学習方法を紹介します。 0.75
3.1 Teacher-Student Joint Learning and 3.1 教師-学生共同学習 0.69
Distillation Framework The overall framework of our NewsBERT approach in a typical news classification task is shown in Fig. 蒸留フレームワーク 典型的なニュース分類タスクにおけるNewsBERTアプローチの全体的なフレームワークを図に示します。 0.71
1. It contains a teacher model with a parameter set Θ𝑡 and a student model with a parameter set Θ𝑠. 1. これは、パラメータセットの教師モデル、パラメータセットの学生モデル、およびパラメータセットの生徒モデルが含まれています。 0.77
The teacher is a strong but large-scale PLM (e.g., BERT) with heavy computational cost, and the goal is to learn the light-weight student model that can keep most of the teacher’s performance. 教師は、強力な、しかし大規模なplm(例えばbert)であり、計算コストが高く、目標は、教師のパフォーマンスの大部分を維持できる軽量な学生モデルを学ぶことである。 0.69
Different from existing knowledge distillation methods that first learn the teacher model and then distill the student model from the fixed teacher model, in our approach we jointly learn the teacher and student models and meanwhile distilling useful knowledge from the teacher model. まず,教師モデルから生徒モデルを抽出し,固定教師モデルから学生モデルを抽出する既存の知識蒸留法と異なり,我々は教師モデルと学生モデルを共同で学習し,一方で教師モデルから有用な知識を蒸留する。 0.84
Both teacher and student language models contain an embedding layer and several Transformer [33] layers. 教師と学生の言語モデルは、埋め込み層と複数のトランスフォーマー[33]層を含む。 0.79
We assume that the teacher model has 𝑁 𝐾 Transformer [33] layers on the top of the embedding layer and the student model contains 𝑁 Transformer layers on the embedding layer. 教師モデルは埋め込み層の上にNKトランスフォーマー[33]層を持ち、学生モデルは埋め込み層上にNトランスフォーマー層を含むと仮定する。 0.67
Thus, the inference speed of the student model is approximately 𝐾 times faster than the teacher. したがって、生徒モデルの推論速度は教師よりも約K倍速い。 0.67
We first use the teacher and student models to separately process the input news text (denoted as 𝑥) through their Transformer layers and obtain the hidden representation of each token. まず,教師と生徒のモデルを用いて,入力ニューステキスト(xと表記される)をトランスフォーマー層を通して別々に処理し,各トークンの隠れた表現を得る。 0.81
We use a shared attentive pooling [43] layer (with parameter set Θ𝑝) to convert the hidden representation sequences output by the teacher and student models into unified news embeddings, and finally use a shared dense layer (with parameter set Θ𝑑) to predict the classification probability scores based on the news embedding. 教師と生徒モデルによって出力される隠れ表現列を統一ニュース埋め込みに変換するために,共有注意プーリング[43]層(パラメータセットθp)を使用し,最後に共有高密度層(パラメータセットθd)を用いてニュース埋め込みに基づいて分類確率スコアを予測する。 0.85
By sharing the Teacher Model...Transformer Layer 1Transformer Layer KShared PoolingStudent ModelHidden LossHidden Loss�𝒚𝒚𝒕𝒕�𝒚𝒚𝐬𝐬Distill Loss............Tran sformer Layer (N-1)K+1Transformer Layer NK.................. .........Transformer Layer 1.........Transforme r Layer N...Shared PoolingShared DenseShared DenseHidden LossDallas Cowboys 2021 NFL ScheduleEmbedding... Embedding...Hidden LossNews Text𝑯𝑯𝑁𝑁𝑠𝑠𝑯𝑯1𝑠𝑠𝑬𝑬𝑠𝑠𝑯𝑯𝑁𝑁𝑁𝑁𝑡𝑡𝑯𝑯𝑁𝑁𝑡𝑡𝑬𝑬𝑡𝑡𝒉𝒉𝑠𝑠𝒉𝒉𝑡𝑡𝒚𝒚Task LossTask LossLabel𝒈𝒈𝑁𝑁,𝑁𝑁𝑡𝑡𝒈𝒈𝑁𝑁,1𝑡𝑡𝒈𝒈1,𝑁𝑁𝑡𝑡𝒈𝒈1,1𝑡𝑡𝒈𝒈𝑁𝑁𝑡𝑡𝒈𝒈1𝑡𝑡GradientMomentumGrad ientMomentumBackward Propagation 共有することで Teacher Model...Transformer Layer 1Transformer Layer KShared PoolingStudent ModelHidden LossHidden Loss�𝒚𝒚𝒕𝒕�𝒚𝒚𝐬𝐬Distill Loss............Tran sformer Layer (N-1)K+1Transformer Layer NK.................. .........Transformer Layer 1.........Transforme r Layer N...Shared PoolingShared DenseShared DenseHidden LossDallas Cowboys 2021 NFL ScheduleEmbedding... Embedding...Hidden LossNews Text𝑯𝑯𝑁𝑁𝑠𝑠𝑯𝑯1𝑠𝑠𝑬𝑬𝑠𝑠𝑯𝑯𝑁𝑁𝑁𝑁𝑡𝑡𝑯𝑯𝑁𝑁𝑡𝑡𝑬𝑬𝑡𝑡𝒉𝒉𝑠𝑠𝒉𝒉𝑡𝑡𝒚𝒚Task LossTask LossLabel𝒈𝒈𝑁𝑁,𝑁𝑁𝑡𝑡𝒈𝒈𝑁𝑁,1𝑡𝑡𝒈𝒈1,𝑁𝑁𝑡𝑡𝒈𝒈1,1𝑡𝑡𝒈𝒈𝑁𝑁𝑡𝑡𝒈𝒈1𝑡𝑡GradientMomentumGrad ientMomentumBackward Propagation 0.59
英語(論文から抽出)日本語訳スコア
parameters of the top pooling and dense layers, the student model can get richer supervision information from the teacher, and the teacher can also be aware of student’s learning status. トッププールと高密度層のパラメータ、学生モデルは教師からより豊富な監督情報を得ることができ、教師はまた、学生の学習状況を認識することができます。 0.75
Thus, the teacher and student can be reciprocally learned by sharing useful knowledge encoded by them, which is helpful for learning a strong student model. したがって、教師と学生は、彼らがエンコードした有用な知識を共有して相互に学習することができ、強力な学生モデルを学ぶのに役立ちます。 0.67
Next, we introduce the knowledge distillation details of our approach. 次に,我々のアプローチの知識蒸留の詳細を紹介する。 0.75
We assume the 𝑖-th Transformer layer in the student model corresponds to the layers [(𝑖 − 1)𝐾 + 1, ..., 𝑖𝐾] in the teacher model. 学習モデルにおける i-th Transformer 層は,教師モデルにおける [(i − 1)K + 1, ..., iK] 層に対応すると仮定する。 0.81
We call the stack of these 𝐾 layers in the teacher model as a “block”. 教師モデルのこれらのk層のスタックを“ブロック”と呼んでいます。 0.68
Motivated by [29], we apply a hidden loss to align the hidden representations given by each layer in the student model and its corresponding block in the teacher model, which can help the student better learn from the teacher. また, [29] に動機付け, 学生モデルにおける各層と教師モデルにおける対応するブロックに隠された表現を合わせるために, 隠れた損失を適用し, 生徒が教師モデルからより学習しやすいようにした。 0.78
We denote the token representations output by the embedding layers in the teacher and student models as E𝑡 and E𝑠, respectively. 本稿では,EtとEsとして,教師モデルと生徒モデルに埋め込み層が出力するトークン表現をそれぞれ表現する。 0.74
The hidden representations produced by the 𝑖-th layer in the student model are denoted as H𝑠 𝑖 , and the hidden representations given by the corresponding block in the teacher model are denoted as H𝑡 𝑖𝐾. 学生モデルにおけるi層によって生成される隠蔽表現をHsiとし、教師モデルにおける対応するブロックによって与えられる隠蔽表現をHtiKとする。 0.75
The hidden loss function applied to these layers is formulated as follows: これらの層に適用される隠れ損失関数は次のように定式化される。 0.62
ℎ𝑖𝑑𝑑𝑒𝑛(𝑥, Θ𝑡; Θ𝑠) = MSE(E𝑡 , E𝑠) + 𝑁∑︁ hidden(x, θt; θs) = mse(et , es) + n\ 0.77
L𝑙 MSE(H𝑡 Ll MSE(Ht) 0.89
𝑖 ), 𝑖𝐾 , H𝑠 (1) i)、iK、Hs。 (1) 0.78
𝑖=1 where MSE stands for the Mean Squared Error loss function. 𝑖=1 MSEはMean Squared Error Loss関数の略です。 0.63
In addition, since the pooling layer is shared between student and teacher, we expect the unified news embeddings learned by the pooling layers in the teacher and student models (denoted as h𝑡 and h𝑠 respectively) to be similar. また,学生と教師の間ではプール層が共有されているため,教師と生徒モデルのプール層(それぞれht,hsと表記される)が学習する統一的なニュース埋め込みが類似することを期待している。 0.78
Thus, we propose to apply an additional hidden loss to these embeddings, which is formulated as follows: そこで,本論文では,これらの組込みにさらに隠れた損失を適用することを提案する。 0.70
L𝑝 ℎ𝑖𝑑𝑑𝑒𝑛(𝑥, Θ𝑡; Θ𝑠, Θ𝑝) = MSE(h𝑡 , h𝑠). Lp hidden(x, .t; .s, .p) = MSE(ht , hs)。 0.92
(2) Besides, to encourage the student model to give similar predictions to the teacher model, we use the distillation loss function to regularize the output soft labels. 2)教師モデルに類似した予測を与えるように学生モデルを奨励するために、我々は、出力ソフトラベルを正規化するために蒸留損失機能を使用します。 0.76
We denote the soft label vectors predicted by the teacher and student models as ˆ𝑦𝑡 and ˆ𝑦𝑠, respectively. 教師モデルと学生モデルによって予測されるソフトラベルベクトルを,それぞれ yt と ys と表す。 0.75
The distillation loss is formulated as follows: 蒸留損失は次のように定式化される。 0.58
L𝑑𝑖𝑠𝑡𝑖𝑙𝑙 (𝑥, Θ𝑡; Θ𝑠, Θ𝑝, Θ𝑑) = CE( ˆ𝑦𝑡/𝑡, ˆ𝑦𝑠/𝑡), Ldistill (x, s, s, s, s, t) = CE( syt/t, sys/t) 0.83
(3) where CE stands for the cross-entropy function and 𝑡 is the temperature value. (3) CE はクロスエントロピー関数であり、t は温度値である。 0.72
The overall loss function for distillation is a summation of the hidden losses and the distillation loss, which is formulated as follows: 蒸留における全体的な損失関数は、隠れた損失と蒸留損失の和であり、次のように定式化される。
訳抜け防止モード: 蒸留における全損失関数は隠れ損失の和である 蒸留損失は次のように定式化されている。
0.77
ℎ𝑖𝑑𝑑𝑒𝑛 + L𝑝 hidden + Lp 0.85
L𝑑(𝑥, Θ𝑡; Θ𝑠, Θ𝑝, Θ𝑑) = L𝑙 Ld(x, >t; >s, >p, >d) = Ll 0.82
(4) Since the original teacher and student models are task-agnostic, both teacher and student models need to receive task-specific supervision signals from the task labels (denoted as 𝑦) to tune their parameters. (4)教師と生徒のモデルがタスクに依存しないため、教師と生徒のモデルはタスクラベル(yと表記される)からタスク固有の監督信号を受信してパラメータをチューニングする必要がある。 0.76
Thus, the unified loss function L𝑠 for training the student model is the summation of the overall distillation loss and the classification loss, which is written as follows: したがって、学生モデルを訓練するための統一的な損失関数 Ls は、全蒸留損失と分類損失の和であり、次のように記述されている。 0.76
ℎ𝑖𝑑𝑑𝑒𝑛 + L𝑑𝑖𝑠𝑡𝑖𝑙𝑙 . 隠された+ Ldistill。 0.69
L𝑠(𝑥, Θ𝑡; Θ𝑠, Θ𝑝, Θ𝑑) = L𝑑(𝑥, Θ𝑡; Θ𝑠, Θ𝑝, Θ𝑑) + CE( ˆ𝑦𝑠, 𝑦). Ls(x, , , , , , , , , , , ) = Ld(x, , , , , , , ) + CE( , ys, y) である。 0.73
(5) Since we do not expect the teacher to be influenced by the student too heavily, the loss function L𝑡 for training the teacher model is only the classification loss, which is computed as follows: (5) 教師が学生に強く影響されることを期待していないため、教師モデルの学習における損失関数Ltは分類損失のみであり、次のように計算される。 0.81
L𝑡 (𝑥; Θ𝑡 , Θ𝑝, Θ𝑑) = CE( ˆ𝑦𝑡 , 𝑦). L𝑡 (𝑥; Θ𝑡 , Θ𝑝, Θ𝑑) = CE( ˆ𝑦𝑡 , 𝑦). 0.97
(6) Figure 2: The framework of incorporating NewsBERT in personalized news recommendation. (6) 図2: パーソナライズされたニュースレコメンデーションにNewsBERTを組み込むフレームワーク。 0.81
By jointly optimizing the loss functions of the teacher and student models via backward propagation, we can obtain a light-weight student model that can generate task-specific news representations for inferring the labels in downstream tasks as the teacher model. 教師モデルと学生モデルの損失関数を後方伝搬により協調的に最適化することにより、下流タスクのラベルを教師モデルとして推測するタスク固有のニュース表現を生成する軽量な学生モデルを得ることができる。 0.78
3.2 Momentum Distillation In our approach, each Transformer layer in the student model corresponds to a block in the teacher model and we expect they have similar behaviors in learning hidden text representations. 3.2 運動量蒸留 このアプローチでは, 生徒モデルのトランスフォーマー層は教師モデルのブロックに対応し, 隠れたテキスト表現の学習に類似した挙動を期待する。 0.81
To help the student model better imitate the teacher model, we propose a momentum distillation method that can inject the gradients of the teacher model into the student model as a gradient momentum to boost the learning of the student model. 生徒モデルが教師モデルの模倣をより良くするために,教師モデルの勾配を生徒モデルの勾配運動量として学生モデルに注入し,生徒モデルの学習を促進する運動量蒸留法を提案する。 0.83
We denote the gradients of the 𝑗-th layer in the 𝑖-th block of the teacher model as g𝑡 𝑖,𝑗, which is computed by optimizing the teacher’s training loss L𝑡 via backward propagation. 教師モデルのi-thブロックにおけるj-th層の勾配をgt i,jと表現し,教師の学習損失ltを後方伝播により最適化することで計算する。 0.80
The gradients of the 𝑘-th layer in the student model , which is derived from L𝑠. 学生モデルにおける k 番目の層の勾配は Ls から導かれる。 0.76
We use the average is denoted as g𝑠 𝑘 of the gradients from each layer in the 𝑖-th block of the teacher model as the overall gradients of this block (denoted as g𝑡 𝑖 ), which is formulated as: 平均値は、教師モデルのi-thブロックの各層からの勾配のgs kとして、このブロックの全体的な勾配(gt i と表記される)として、次のように表される。 0.75
𝐾∑︁ 𝑗=1 g𝑡 𝑖 = 𝐾∑︁ 𝑗=1 gt i = 0.68
1 𝐾 g𝑡 𝑖,𝑗 . 1 𝐾 gt i,j。 0.75
(7) Motivated by the momentum mechanism [10, 21], we combine the block gradients g𝑡 𝑖 with the gradients of the corresponding layer in the student model in a momentum manner, which is formulated as follows: (7) 運動量機構[10, 21]に動機づけられ, ブロック勾配gt i と学生モデルの対応する層の勾配を, 運動量的に合成し, 以下のように定式化する。 0.80
g𝑠 𝑘 = 𝛽g𝑡 gs k = βgt 0.98
𝑘 + (1 − 𝛽)g𝑠 𝑘, 𝑘 + (1 − 𝛽)g𝑠 𝑘, 0.93
(8) where 𝛽 is a momentum hyperparameter that controls the strength of the gradient momentum of the teacher model. (8) ここでβは教師モデルの勾配運動量の強さを制御する運動量ハイパーパラメータです。 0.81
In this way, the teacher’s gradients are explicitly injected into the student model, which may have the potential to better guide the learning of the student by pushing each layer in the student model to have similar function with the corresponding block in the teacher model. このように、教師のグラデーションは学生モデルに明示的に注入され、教師モデルの対応するブロックと類似した機能を持つように学生モデルの各層を押して学生の学習をより良く導く可能性があります。 0.75
1NEWSNEWSNEWSNEWSNew sBERTUser’s Clicked NewsCandidate NewsNewsBERTNewsBERT NewsBERT……User EncoderClick Predictor�𝑦𝑦𝒖𝒖𝒉𝒉𝑐𝑐𝒉𝒉1𝒉𝒉2𝒉𝒉𝑇𝑇…𝐷𝐷𝑐𝑐𝐷𝐷1𝐷𝐷2𝐷𝐷𝑇𝑇UserEmbeddingCandida te NewsEmbedding ユーザーエンコーダークリック予測器yyuuhhcchh1hh2hhtt.. .ddccdd1dd2ddttusere mbeddingcandidate newsembedding 0.32
英語(論文から抽出)日本語訳スコア
3.3 Applications of NewsBERT for News 3.3 NewsBERTのニュースへの適用 0.80
Intelligence In this section, we briefly introduce the applications of NewsBERT in other news intelligence scenarios like personalized news recommendation. 知性 本稿では、パーソナライズされたニュースレコメンデーションのような他のニュースインテリジェンスシナリオにおけるNewsBERTの応用について紹介する。 0.59
An illustrative framework of news recommendation is shown in Fig. 図1に、ニュースレコメンデーションの図示的なフレームワークを示します。 0.64
2, which is a two-tower framework. これは2タワーのフレームワークだ。 0.50
The input is a sequence with a user’s 𝑇 historical clicked news (denoted as [𝐷1, 𝐷2, ..., 𝐷𝑇]) and a candidate news 𝐷𝑐, and the output is the click probability score ˆ𝑦 which can be further used for personalized news ranking and display. 入力は、ユーザーのT履歴クリックされたニュース([D1, D2, ..., DT]と候補のニュースDcとのシーケンスであり、出力は、パーソナライズされたニュースランキングおよび表示にさらに使用できるクリック確率スコアである。 0.69
We first use a shared NewsBERT model to encode each clicked news and the candidate news into their hidden representations [h1, h2, ..., h𝑇] and h𝑐. まず、共有NewsBERTモデルを使用して、各クリックされたニュースと候補ニュースを隠れた表現[h1, h2, ..., hT]とhcにエンコードします。 0.78
Then, we use a user encoder to capture user interest from the representations of clicked news and obtain a user embedding u. 次に、ユーザエンコーダを用いて、クリックしたニュースの表現からユーザの興味を捉え、uを埋め込むユーザを得る。 0.77
The final click probability score is predicted by matching the user embedding u and h𝑐 via a click predictor, which can be implemented by the inner product function. 最終クリック確率スコアは、内積関数によって実装できるクリック予測器を介してユーザ埋め込みuとhcとを一致させることで予測される。 0.81
In this framework, teacher and student NewsBERT models are used to generate news embeddings separately, while the user encoder and click predictor are shared between the teacher and student models to generate the prediction scores, which are further constrained by the distillation loss function. 本フレームワークでは、教師と生徒のNewsBERTモデルを用いてニュース埋め込みを別々に生成し、ユーザエンコーダとクリック予測器を教師と生徒の間で共有して予測スコアを生成し、蒸留損失関数によりさらに制約される。 0.79
In addition, the MSE hidden losses are simultaneously applied to all news embeddings generated by the shared NewsBERT model and the user embedding u generated by the user encoder, which can encourage the student model to be similar with the teacher model in supporting user interest modeling. また、共有NewsBERTモデルとユーザエンコーダが生成したユーザ埋め込みuとが生成するニュース埋め込みすべてに対して、MSE隠れ損失を同時に適用することにより、学生モデルと教師モデルとの類似性を奨励し、ユーザ興味モデリングを支援する。 0.82
4 EXPERIMENTS 4.1 Datasets and Experimental Settings We conduct experiments on two real-world datasets. 4 実験 4.1 データセットと実験設定 2 つの実世界のデータセットで実験を行う。 0.69
The first dataset is the MIND dataset [40], which is a large-scale public news recommendation dataset. 最初のデータセットは、大規模な公開ニュースレコメンデーションデータセットであるMDDデータセット[40]です。 0.60
It contains the news impression logs of 1 million users on the Microsoft News website during 6 weeks (from 10/12/2019 to 11/22/2019). 6週間の間にMicrosoft Newsのウェブサイトで100万人のユーザーのニュースインプレッションログが含まれています(10/12/2019から11/22/2019まで)。 0.63
We used this dataset for learning and distilling our NewsBERT model in the news topic classification and personalized news recommendation tasks. このデータセットをニューストピック分類とパーソナライズされたニュースレコメンデーションタスクにおいて,NewsBERTモデルの学習と蒸留に使用した。 0.78
On the MIND dataset, the logs of the first 5 weeks were used for training and validation, and logs in the last week rest were reserved for test. MINDデータセットでは、最初の5週間のログがトレーニングと検証に使用され、最後の週のログはテストのために予約されました。 0.74
Since there are some news that appear in multiple dataset splits, in the news topic classification task we only used the news that do not appear in the training and validation sets for test to avoid label leakage. 複数のデータセットの分割に現れるニュースがあるので、ニューストピックの分類タスクでは、ラベルの漏洩を避けるために、テストのトレーニングおよび検証セットに表示されないニュースのみを使用しました。 0.81
The second dataset is a news retrieval dataset (named as NewsRetrieval), which was sampled from the logs of Bing search engine from 07/31/2020 to 09/13/2020. 第2のデータセットはニュース検索データセット(NewsRetrieval)で、Bing検索エンジンのログから07/31/2020から09/13/2020までサンプリングされた。 0.74
It contains the search queries of users and the corresponding clicked news. これは、ユーザーの検索クエリと対応するクリックニュースが含まれています。 0.64
On this dataset, we finetuned models distilled on MIND to measure their cross-task performance in the news retrieval task. 本データセットでは, ニュース検索タスクにおいて, MINDで蒸留したモデルを微調整し, クロスタスク性能を計測した。
訳抜け防止モード: このデータセットで 蒸留したモデルを微調整し ニュース検索タスクにおけるクロスタスクのパフォーマンスを測定する。
0.70
We used the logs in the first month for training, the logs in the next week for validation, and the rest logs for test. トレーニングには最初の1ヶ月のログ、検証には来週のログ、テストには残りのログを使用しました。
訳抜け防止モード: 最初の1ヶ月のログをトレーニングに使用し、次の週のログを検証に使用しました。 残りはテスト用のログです
0.79
The statistics of the two datasets are summarized in Table 1. 2つのデータセットの統計を表1にまとめた。 0.81
In our experiments, motivated by [7], we used the first 8 layers of the pre-trained UniLM [1] model as the teacher model1, and we used the parameters of its first 1, 2 or 4 layers to initialize the 実験では, [7] をモチベーションとして, 事前学習した UniLM [1] モデルの最初の8層を教師モデルとして使用し, 最初の1, 2, 4 層のパラメータを初期化するために使用した。 0.86
1We used the UniLM V2 model. 1 UniLM V2モデルを使用。 0.83
Table 1: Detailed statistics of the MIND and NewsRetrieval datasets. 表1: MINDとNewsRetrievalデータセットの詳細な統計。 0.81
# Users # News categories # Click behaviors #ユーザ #ニュースカテゴリ #クリック行動 0.76
# Queries Avg. # words per query #クエリavg。 #クエリ毎のワード 0.64
MIND 1,000,000 20 MIND 1,000,000 20 0.68
# News # Impressions 24,155,470 Avg. #ニュース#印象 24155,470人。 0.64
# words per news title #ニュースタイトルあたりの単語 0.88
NewsRetrieval # News NewsRetrieval #ニュース 0.83
1,990,942 11.83 Avg. 1,990,942 11.83 Avg。 0.56
# words per news text #ニューステキスト毎の単語 0.83
161,013 15,777,377 11.52 161,013 15,777,377 11.52 0.39
1,428,779 596.09 1,428,779 596.09 0.39
student models with different capacities. 異なる能力を持つ学生モデル。 0.79
In the news recommendation task, the user encoder was implemented by an attentive pooling layer, and the click predictor was implemented by inner product. ニュースレコメンデーションタスクでは,ユーザエンコーダは注意プーリング層によって実装され,クリック予測器は内部製品によって実装された。 0.74
The query vectors in all attentive pooling layers were 256-dimensional. すべての注意プーリング層のクエリベクトルは256次元であった。 0.70
We used Adam [2] as the model optimizer, and the learning rate was 3e-6. モデルオプティマイザとしてAdam [2]を用い,学習速度は3e-6。 0.73
The temperature value 𝑡 was set to 1. 温度値 t は 1 に設定された。 0.89
The batch size was 32. バッチサイズは32。 0.55
The dropout [27] ratio was 0.2. ドロップアウト[27]比は0.2。 0.72
The gradient momentum hyperparameter 𝛽 was set to 0.1 and 0.15 in the news topic classification task and the news recommendation task, respectively. ニューストピック分類タスクとニュースレコメンデーションタスクでは, 勾配運動量ハイパーパラメータβが0.1と0.15に設定された。 0.78
These hyperparamters were tuned on the validation set. これらのハイパーパラメータは検証セットに調整された。 0.59
Since the topic categories in MIND are imbalanced, we used accuracy and macro-F1 score (denoted as macro-F) as the metrics for the news topic classification task. 話題カテゴリは不均衡であるため,ニューストピック分類タスクの指標として,精度とマクロf1スコア(マクロf)を用いた。 0.76
Following [40], we used the AUC, MRR, nDCG@5 and nDCG@10 scores to measure the performance of news recommendation models. 40]に続いて,AUC,MRR,nDCG@5,nDCG @10スコアを用いて,ニュースレコメンデーションモデルの性能を測定した。 0.65
On the news retrieval task, we used AUC as the main metric. ニュース検索タスクでは、AUCをメインメトリックとして使用しました。 0.60
We independently repeated each experiment 5 times and reported the average results. 各実験をそれぞれ5回繰り返し,平均結果を報告した。 0.77
4.2 Performance Evaluation In this section, we compare the performance of our NewsBERT approach with many baseline methods, including: • Glove [20], which is a widely used pre-trained word embedding. 4.2 パフォーマンス評価 このセクションでは、NewsBERTアプローチのパフォーマンスと、次のような多くのベースラインメソッドを比較します。 • 広く使用されているプリトレーニングされた単語埋め込みであるGlove [20]。 0.74
We used Glove to initialize the word embeddings in a Transformer [33] model for news topic classification and the NRMS [39] model for news recommendation. 我々はGloveを用いて、ニューストピック分類のためのTransformer[33]モデルとニュースレコメンデーションのためのNRMS[39]モデルに単語埋め込みを初期化する。 0.79
• BERT [8], a popular pre-trained language model with bidirectional Transformers. BERT [8]、双方向トランスフォーマーを備えた人気のあるプリトレーニング言語モデル。 0.71
We compare the performance of the 12-layer BERT-Base model or its first 8 layers. 12層BERT-Baseモデルまたは最初の8層の性能を比較します。 0.75
• UniLM [1], a unified language model for natural language understanding and generation, which is the teacher model in our approach. • UniLM [1]は、自然言語の理解と生成のための統一言語モデルであり、我々のアプローチにおける教師モデルである。 0.88
We also compare its 12-layer version and its variant using the first 1, 2, 4, or 8 layers. また、第1、第2、第4、または8層を使用して、その12層バージョンとその変種を比較します。
訳抜け防止モード: 12層版とその変種も比較します。 最初の1、2、4、8の層を使います。
0.72
• TwinBERT [17], a method to distill pre-trained language models for document retrieval. • TwinBERT [17], 文書検索のための事前訓練された言語モデルを蒸留する方法。 0.80
For fair comparison, we used the same UniLM model as the approach, and compare the performance of the student models with 1, 2, and 4 layers. 公平な比較のために、アプローチとして同じUniLMモデルを使用し、学生モデルのパフォーマンスを1, 2, 4層と比較しました。 0.77
• TinyBERT [13], which is a state-of-the-art two-stage knowledge distillation method for compressing pre-trained language models. •TinyBERT [13]は、事前訓練された言語モデルを圧縮するための最先端の2段階の知識蒸留方法です。 0.64
We compare the performance of the officially released 4-layer and 6-layer TinyBERT models distilled from BERT-Base and the performance of student models with 1, 2, and 4 layers distilled from the UniLM model. BERT-Baseから蒸留した4層および6層のTinyBERTモデルの性能と、UniLMモデルから蒸留した1, 2, 4層の学生モデルの性能を比較します。 0.82
Table 2 shows the performance of all the compared methods in news topic classification and news recommendation tasks. 表2は、ニューストピック分類とニュースレコメンデーションタスクにおける比較メソッドのパフォーマンスを示しています。 0.82
From the results, we have the following observations. その結果,以下の結果が得られた。 0.63
First, compared with the Glove baseline, the methods based on pre-trained language 第一にグローブベースラインと比較して,事前学習した言語に基づく方法 0.78
英語(論文から抽出)日本語訳スコア
Table 2: Performance comparisons of different methods. 表2: 異なる方法のパフォーマンスの比較。 0.78
* means using the UniLM model for distillation. ※蒸留にはUniLMモデルを用いる。 0.67
The results of best performed teacher and student models are highlighted. 成績のよい教師と生徒のモデルの結果が強調される。 0.80
News Recommendation ニュースレコメンデーション 0.43
nDCG@5 nDCG@10 nDCG@5 nDCG@10 0.85
Model Glove BERT-12 BERT-8 UniLM-12 UniLM-8 UniLM-4 UniLM-2 UniLM-1 TwinBERT-4* TwinBERT-2* TwinBERT-1* TinyBERT-6 TinyBERT-4 TinyBERT-4* TinyBERT-2* TinyBERT-1* NewsBERT-4 NewsBERT-2 NewsBERT-1 モデル Glove BERT-12 BERT-8 UniLM-8 UniLM-8 UniLM-4 UniLM-2 UniLM-1 TwinBERT-4* TwinBERT-2* TwinBERT-1* TinyBERT-6 TinyBERT-4* TinyBERT-2* TinyBERT-1* NewsBERT-4 NewsBERT-1 0.67
Topic classification Accuracy Macro-F 49.71 51.44 51.56 51.75 52.10 51.20 50.76 50.37 51.24 50.84 50.45 50.80 50.39 51.12 50.94 50.50 51.78 51.26 50.65 Topic classification Accuracy Macro-F 49.71 51.44 51.56 51.75 52.10 51.20 50.76 50.37 51.24 50.84 50.45 50.80 50.39 51.12 50.94 50.50 51.78 51.26 50.65 0.44
71.13 73.68 73.95 74.54 74.69 73.53 72.96 72.32 73.59 72.98 72.40 73.54 73.17 73.76 73.15 72.55 74.45 74.10 73.49 71.13 73.68 73.95 74.54 74.69 73.53 72.96 72.32 73.59 72.98 72.40 73.54 73.17 73.76 73.15 72.55 74.45 74.10 73.49 0.41
AUC MRR 33.09 67.92 34.56 69.78 34.70 70.04 70.53 35.29 35.40 70.72 34.38 69.64 33.52 68.96 33.14 68.02 69.78 34.48 33.67 69.12 33.40 68.32 34.54 69.77 69.39 33.84 34.52 69.90 33.80 69.35 33.46 68.40 34.89 70.31 69.89 34.50 33.54 68.97 AUC MRR 33.09 67.92 34.56 69.78 34.70 70.04 70.53 35.29 35.40 70.72 34.38 69.64 33.52 68.96 33.14 68.02 69.78 34.48 33.67 69.12 33.40 68.32 34.54 69.77 69.39 33.84 34.52 69.90 33.80 69.35 33.46 68.40 34.89 70.31 69.89 34.50 33.54 68.97 0.41
36.03 37.90 38.09 38.61 38.74 37.65 36.74 36.09 37.76 36.89 36.34 37.88 37.50 37.77 37.42 36.39 38.32 37.75 36.77 36.03 37.90 38.09 38.61 38.74 37.65 36.74 36.09 37.76 36.89 36.34 37.88 37.50 37.77 37.42 36.39 38.32 37.75 36.77 0.41
41.80 43.45 43.79 44.29 44.41 43.38 42.48 41.87 43.47 42.60 42.09 43.44 43.10 43.48 43.06 42.15 43.95 43.50 42.51 41.80 43.45 43.79 44.29 44.41 43.38 42.48 41.87 43.47 42.60 42.09 43.44 43.10 43.48 43.06 42.15 43.95 43.50 42.51 0.41
Speedup 1.0x 1.5x 1.0x 1.5x 3.0x 6.0x 12.0x 3.0x 6.0x 12.0x 2.0x 9.4x 3.0x 6.0x 12.0x 3.0x 6.0x 12.0x スピードアップ 1.0x 1.5x 1.5x 3.0x 6.0x 12.0x 3.0x 6.0x 12.0x 2.0x 9.4x 3.0x 6.0x 12.0x 3.0x 6.0x 12.0x 0.50
models achieve better performance. モデルのパフォーマンスが向上する。 0.70
It shows that contextualized word representations generated by pre-trained language models are more informative in language modeling. 学習済み言語モデルによって生成された文脈化された単語表現は、言語モデリングにおいてより有益なものであることを示す。 0.52
Second, by comparing the results of BERT and UniLM (both 8- and 12-layer versions), we find UniLM-based models perform better in both tasks. 第2に,BERT と UniLM (8層版と12層版の両方) の結果を比較することで,UniLM ベースのモデルの性能が両タスクで向上することを確認した。 0.62
It shows that UniLM is stronger than BERT in modeling news texts, and thereby we used UniLM for learning and distilling our models. UniLMは、ニューステキストのモデリングにおいてBERTよりも強力であることを示し、モデルの学習と蒸留にUniLMを使用した。 0.68
Third, compared with BERT-12 and UniLM-12, their variants using the first 8 layers perform better. 第3に、bert-12 や unilm-12 と比較して、最初の8層を使った変種の方が優れている。 0.51
This may be because the top layers in pretrained language models are adjusted to fitting the self-supervision tasks (e.g., masked token prediction) while the hidden representations of intermediate layers have better generalization ability, which is also validated by [7]. これは、事前訓練された言語モデルの上位層が自己超越タスク(例えば、マスク付きトークン予測)に適合するように調整されるのに対して、中間層の隠れ表現はより一般化能力があり、これも [7] によって検証されるためかもしれない。 0.65
Fourth, compared with TwinBERT, the results of TinyBERT and NewsBERT are usually better. 第4に、TwinBERTと比較して、TinyBERTとNewsBERTの結果は通常より良いです。 0.80
This may be because the TwinBERT method only distills the teacher model based on the output soft labels, while the other two methods can also align the hidden representations learned by intermediate layers, which can help the student model better imitate the teacher model. TwinBERTメソッドは、出力ソフトラベルに基づいて教師モデルを蒸留するだけですが、他の2つの方法は、中間層によって学習された隠れた表現を整列させることができ、教師モデルをよりよく模倣するのに役立ちます。 0.80
Fifth, our NewsBERT approach outperforms all other compared baseline methods, and our further t-test results show the improvements are significant at 𝑝 < 0.01 (by comparing the models with the same number of layers). 第5に、我々のNewsBERTアプローチは、他の比較ベースライン法よりも優れており、さらにt-testの結果は、p < 0.01 において改善が有意であることを示している。 0.73
This is because our approach employs a teacher-student joint learning and distillation framework where the student can learn from the learning process of the teacher, which is beneficial for the student to extract useful knowledge from the teacher model. これは、生徒が教師モデルから有用な知識を抽出するために学生が有益である教師の学習プロセスから学ぶことができる教師と学生の共同学習と蒸留フレームワークを採用するためです。 0.75
In addition, our approach uses a momentum distillation method that can inject the gradients of teacher model into the student model in a momentum way, which can help each layer in the student model to better imitate the corresponding part in the teacher model. また,本研究では,教師モデルの勾配を運動量モデルに注入するモーメント蒸留法を用いて,生徒モデルの各層が教師モデルの対応する部分をよりよく模倣するのを助けることができる。 0.73
Thus, our approach can achieve better performance than other distillation methods. 従って、私達のアプローチは他の蒸留方法よりよい性能を達成できます。 0.64
Sixth, NewsBERT can 6位、NewsBERTはできる 0.66
Figure 3: Cross-task performance in the news retrieval task. 図3:ニュース検索タスクにおけるクロスタスクのパフォーマンス。 0.77
achieve satisfactory and even comparable results with the original pre-trained language model. オリジナルの事前訓練された言語モデルで満足度と同等の結果を得る。 0.65
For example, there is only a 0.24% accuracy gap between NewsBERT-4 and the teacher model in the topic classification task. 例えば、トピック分類タスクでは、NewsBERT-4と教師モデルの間には0.24%の精度ギャップしかありません。 0.74
In addition, the size of student models is much smaller than the original 12-layer model, and their training or inference speed is much faster (e.g., about 12.0x speedup for the one-layer NewsBERT). さらに、学生モデルのサイズは元の12層モデルよりもはるかに小さく、トレーニングや推論の速度ははるかに速い(例えば、1層NewsBERTの約12.0倍のスピードアップ)。 0.84
Thus, our approach has the potential to empower various intelligent news applications in an efficient way. したがって、当社のアプローチは、さまざまなインテリジェントなニュースアプリケーションを効率的にエンパワーメントする可能性を秘めています。 0.63
Next, to validate the generalization ability of our approach, we evaluate the performance of NewsBERT in an additional news retrieval task. 次に,本手法の一般化能力を検証するために,ニュース検索タスクにおけるNewsBERTの性能を評価する。 0.76
We used the NewsBERT model learned in the news recommendation task, and we finetuned it with the labeled news retrieval data in a two-tower framework used by TwinBERT [17]. 我々は、ニュースレコメンデーションタスクで学んだNewsBERTモデルを使用し、TwinBERT[17]が使用した2towerフレームワークでラベル付きニュース検索データを微調整した。 0.78
1 Layer2 Layers4 Layers91.091.592.092 .593.093.5AUC92.0192 .2892.4992.1292.3392 .5992.2092.4292.6392 .7092.8592.96UniLMTw inBertTinyBERTNewsBE RT 1 Layer2 Layers4 Layers91.091.592.092 .593.093.5AUC92.0192 .2892.4992.1292.3392 .5992.2092.4292.6392 .7092.8592.96UniLMTw inBertTinyBERTNewsBE RT 0.12
英語(論文から抽出)日本語訳スコア
(a) Topic classification. (a)トピック分類。 0.73
(a) Topic classification. (a)トピック分類。 0.73
(b) News recommendation. (b) ニュースレコメンデーション。 0.50
(b) News recommendation. (b) ニュースレコメンデーション。 0.50
Figure 4: Influence of the teacher-student joint learning and distillation framework on the student model. 図4:教師と学生の合同学習と蒸留の枠組みが生徒モデルに及ぼす影響。 0.81
Figure 5: Influence of the teacher-student joint learning and distillation framework on the teacher model. 図5:教師と学生の合同学習と蒸留の枠組みが教師モデルに及ぼす影響 0.81
We compared its performance with several methods, including finetuning the general UniLM model or the TwinBERT and TinyBERT models distilled in the news recommendation task. ニューズレコメンデーションタスクにおいて,一般的なUniLMモデルやTwinBERTモデル,TinyBERTモデルを微調整するなど,いくつかの手法と性能を比較した。 0.75
The results are shown in Fig. 結果は図に示されています。 0.70
3, from which we have several findings. 3からいくつかの知見が得られた。 0.61
First, directly fine-tuning the generally pre-trained UniLM model is worse than using the models distilled in the news recommendation task. 第一に、一般に訓練済みのUniLMモデルを直接微調整することは、ニュースレコメンデーションタスクで蒸留されたモデルを使用するよりも悪い。 0.55
This is probably because that language models are usually pre-trained on general corpus like Wikipedia, which has some domain shifts with the news domain. これはおそらく、言語モデルが通常、ニュースドメインといくつかのドメインシフトを持つWikipediaのような一般的なコーパスで事前訓練されているためだろう。 0.63
Thus, generally pre-trained language models may not be optimal for intelligent news applications. したがって、一般的に事前学習された言語モデルは、インテリジェントニュースアプリケーションに最適ではないかもしれない。 0.53
Second, our NewsBERT approach also achieves better cross-task performance than TinyBERT and TwinBERT. 第二に、NewsBERTアプローチはTinyBERTやTwinBERTよりも優れたクロスタスクパフォーマンスを実現します。 0.64
It shows that our approach is more suitable in distilling pre-trained language models for intelligent news applications than these methods. 本手法は,これらの手法よりも,知的ニュースアプリケーションのための事前学習言語モデルを蒸留するのに適していることを示す。 0.64
4.3 Effectiveness of Teacher-Student Joint Learning and Distillation Framework 4.3 教師-学生共同学習と蒸留の枠組みの有効性 0.65
In this section, we conduct experiments to validate the advantage of our proposed teacher-student joint learning and distillation framework over conventional methods that learn teacher and student models successively [11]. 本論では,教師と生徒のモデルを連続的に学習する従来の方法よりも,提案する教師と学生の合同学習・蒸留フレームワークの利点を検証する実験を行う[11]。 0.77
We first compare the performance of the student models under our framework and their variants learned in まず、学生モデルのパフォーマンスをフレームワークで比較し、学習したバリエーションを比較します。
訳抜け防止モード: まず,本枠組み下での学生モデルの性能を比較した。 彼らの変種は
0.78
a disjoint manner. The results are shown in Figs. 不合理な態度。 結果はfigで示されています。 0.45
4(a) and 4(b). 4(a)と4(b)である。 0.90
We find that our proposed joint learning and distillation framework can consistently improve the performance of student models with different capacities. 提案する共同学習・蒸留フレームワークは, 異なるキャパシティを有する学生モデルの性能を一貫して向上させることができる。 0.72
This is because in our approach the student model can learn from the useful experience evoked by the learning process of the teacher model, and the teacher model is also aware of the student’s learning status. これは、私たちのアプローチでは、生徒モデルが教師モデルの学習プロセスによって誘発された有用な経験から学ぶことができ、教師モデルも生徒の学習状況を認識しているからです。 0.80
However, in the disjoint learning framework, student can only learn from the results of a passive teacher. しかし、不快な学習フレームワークでは、生徒は受動的な教師の結果からのみ学ぶことができます。 0.65
Thus, learning teacher and student models successively may not be optimal way for distilling a high-quality student model. したがって、教師と生徒のモデルを連続的に学習することは、高品質な学生モデルを蒸留するのに最適な方法ではないかもしれない。
訳抜け防止モード: こうして 教師と生徒のモデルが 次々に 高品質な学生モデルの蒸留には最適ではないかもしれない。
0.63
We also explore the influence of the teacher-student joint learning and distillation framework on the teacher model. また,教師-学生共同学習と蒸留の枠組みが教師モデルに及ぼす影響についても検討する。 0.73
We compare the performance of the original UniLM-8 model and its variants that serve as the teacher model for distilling different student models. 異なる学生モデルを蒸留する教師モデルとして機能するUniLM-8モデルとその変種の性能を比較した。 0.84
The results are shown in Figs. 結果はfigで示されています。 0.55
5(a) and 5(b). 5(a)および5(b)である。 0.91
We find a very interesting phenomenon that the performance of some teacher models that teach students with sufficient capacities are better than the original UniLM-8 model that does not participate in the joint learning and distillation framework. 十分な能力を持つ生徒を指導する教師モデルの性能は,共同学習と蒸留の枠組みに関わらない元のUniLM-8モデルよりも優れていることが,非常に興味深い現象である。 0.85
This may be because the teacher model may also benefit from the useful knowledge encoded by the student model. これは、教師モデルが生徒モデルによって符号化される有用な知識の恩恵を受ける可能性があるためかもしれない。
訳抜け防止モード: これは 教師モデルは、学生モデルによって符号化された有用な知識の恩恵を受けることができる。
0.68
These results show that our teacher-student joint learning これらの結果から 教師と学生の合同学習は 0.63
NewsBERT-1NewsBERT-2 NewsBERT-470.071.072 .073.074.075.0Accura cy72.6073.2273.7873. 4974.1074.45Disjoint JointNewsBERT-1NewsB ERT-2NewsBERT-466.06 7.068.069.070.071.0A UC68.4869.3369.8768. 9769.8970.31Disjoint JointAccuracyMacro-F 71.072.073.074.075.0 76.0Accuracy74.6975. 0274.8874.6551.051.3 51.651.952.252.50.00 52.100.0052.230.0052 .190.0051.98UniLM-8 (w/o student)UniLM-8 (NewsBERT-4 student)UniLM-8 (NewsBERT-2 student)UniLM-8 (NewsBERT-1 student)AccuracyMacr o-F70.070.270.470.67 0.871.0AUC70.7270.80 70.7470.5943.043.443 .844.244.645.00.0044 .410.0044.490.0044.4 50.0044.30UniLM-8 (w/o student)UniLM-8 (NewsBERT-4 student)UniLM-8 (NewsBERT-2 student)UniLM-8 (NewsBERT-1 student) NewsBERT-1NewsBERT-2 NewsBERT-470.071.072 .073.074.075.0Accura cy72.6073.2273.7873. 4974.1074.45Disjoint JointNewsBERT-1NewsB ERT-2NewsBERT-466.06 7.068.069.070.071.0A UC68.4869.3369.8768. 9769.8970.31Disjoint JointAccuracyMacro-F 71.072.073.074.075.0 76.0Accuracy74.6975. 0274.8874.6551.051.3 51.651.952.252.50.00 52.100.0052.230.0052 .190.0051.98UniLM-8 (w/o student)UniLM-8 (NewsBERT-4 student)UniLM-8 (NewsBERT-2 student)UniLM-8 (NewsBERT-1 student)AccuracyMacr o-F70.070.270.470.67 0.871.0AUC70.7270.80 70.7470.5943.043.443 .844.244.645.00.0044 .410.0044.490.0044.4 50.0044.30UniLM-8 (w/o student)UniLM-8 (NewsBERT-4 student)UniLM-8 (NewsBERT-2 student)UniLM-8 (NewsBERT-1 student) 0.19
英語(論文から抽出)日本語訳スコア
(a) Topic classification. (a)トピック分類。 0.73
(a) Topic classification. (a)トピック分類。 0.73
(b) News recommendation. (b) ニュースレコメンデーション。 0.50
(b) News recommendation. (b) ニュースレコメンデーション。 0.50
Figure 6: Effect of each core component in NewsBERT. 図6: NewsBERTにおける各コアコンポーネントの影響。 0.91
Figure 7: Influence of the gradient momentum hyperparameter 𝛽. 図7: 勾配運動量ハイパーパラメータβの影響。 0.80
and distillation framework can help learn the teacher and student models reciprocally, which may improve both of their performance. そして蒸留フレームワークは、教師と学生のモデルが相互に学習し、両方のパフォーマンスを向上させるのに役立ちます。 0.67
teacher and student models, which is beneficial for the student model to imitate the teacher. 教師と生徒のモデル。これは教師を模倣する学生モデルにとって有益である。 0.78
4.4 Ablation Study In this section, we conduct experiments to validate the effectiveness of several core techniques in our approach, including the hidden loss, the distillation loss and the momentum distillation method. 4.4 アブレーション研究 この節では, 隠れ損失, 蒸留損失, 運動量蒸留法など, いくつかのコア技術の有効性を検証する実験を行った。 0.74
We compare the performance of NewsBERT and its variants with one of these components removed. NewsBERTとその変種のパフォーマンスとこれらのコンポーネントの1つを比較します。 0.83
The results are shown in Figs. 結果はfigで示されています。 0.55
6(a) and 6(b). 6(a)と6(b)である。 0.90
We find that the momentum distillation method plays a critical role in our method because the performance declines considerably when it is removed. モーメント蒸留法は, 除去時に性能が著しく低下するため, 本手法において重要な役割を担っている。 0.72
This may be because the gradients of teacher model condense the knowledge and experience obtained from its learning process, which can better teach the student model to have similar function with the teacher model and thereby yields better performance. これは、教師モデルのグラデーションは、学習プロセスから得られた知識と経験を凝縮し、生徒モデルに教師モデルと類似した機能を持ち、それによってより良いパフォーマンスをもたらすことができるためかもしれません。 0.72
In addition, the distillation loss function is also important for our approach. また,本手法では蒸留損失関数も重要である。 0.62
This is because the distillation loss regularizes the output of the student model to be similar with the teacher model, which encourages the student model to behave similarly with the teacher model. これは、蒸留損失が生徒モデルの出力を教師モデルと類似するように規則化し、生徒モデルが教師モデルと同じように振る舞うことを奨励するからである。 0.85
Besides, the hidden loss functions are also useful for our approach. さらに、隠れた損失関数は我々のアプローチにも有用である。 0.77
It may be because the hidden loss functions can align the hidden representations learned by the 隠された損失関数は、学習した隠された表現を整列させることができるからです。 0.62
4.5 Hyperparameter Analysis In this section, we conduct experiments to study the influence of the gradient momentum hyperparameter 𝛽 on the model performance. 4.5 ハイパーパラメータ解析 この節では、勾配運動量ハイパーパラメータβがモデル性能に与える影響を研究する実験を行う。 0.86
We vary the value of 𝛽 from 0 to 0.3, and the results are shown in Figs. β の値は 0 から 0.3 に変化し、その結果は Figs で示される。 0.77
7(a) and 7(b). 7(a)と7(b)である。 0.90
We observe that the performance is not optimal when the value of 𝛽 is too small. β値が小さすぎると性能が最適でないことが観察される。 0.73
This is because the gradient momentum is too weak under a small 𝛽, and the useful experience from the teacher model cannot be effectively exploited. これは、小さなβでは勾配運動量はあまりに弱く、教師モデルからの有用な経験を効果的に利用できないためです。 0.77
However, the performance starts to decline when 𝛽 is relatively large (e.g., 𝛽 > 0.2). しかし、βが比較的大きい場合(例えば、β > 0.2)に性能が低下し始める。 0.79
This is because the gradients of the teacher model inevitably have some inconsistency with the gradients of the student model, and a large gradient momentum may lead the student model updates deviate the appropriate direction. これは、教師モデルの勾配が必然的に生徒モデルの勾配と矛盾し、大きな勾配運動量によって生徒モデルの更新が適切な方向を逸脱させる可能性があるためである。 0.74
Thus, a moderate selection of 𝛽 from 0.1 to 0.2 is recommended. したがって、βの適切な選択は0.1から0.2に推奨される。 0.64
5 CONCLUSION AND FUTURE WORKS In this paper, we propose a knowledge distillation approach named NewsBERT to compress pre-trained language models for intelligent news applications. 5 ConCLUSION and FUTURE WORKS本稿では,知的ニュースアプリケーションのための事前学習言語モデルを圧縮するための知識蒸留手法であるNewsBERTを提案する。 0.84
We propose a teacher-student joint learning 教師-学生共同学習の提案 0.76
1 Layer2 Layers4 Layers70.071.072.073 .074.075.0Accuracy72 .8973.3073.9573.1973 .8874.1073.2873.9774 .3273.4974.1074.45Ne wsBERT-Hidden Loss-Distillation Loss-Gradient Momentum1 Layer2 Layers4 Layers66.067.068.069 .070.071.0AUC68.5869 .4069.9068.7569.6270 .0468.9069.8070.1968 .9769.8970.31NewsBER T-Hidden Loss-Distillation Loss-Gradient Momentum0.00.050.10. 150.20.250.3β72.072.573.073.574.0 74.575.0Accuracy4 Layers2 Layers1 Layer0.00.050.10.150 .20.250.3β67.068.069.070.071.0 AUC4 Layers2 Layers1 Layer 1 Layer2 Layers4 Layers70.071.072.073 .074.075.0Accuracy72 .8973.3073.9573.1973 .8874.1073.2873.9774 .3273.4974.1074.45Ne wsBERT-Hidden Loss-Distillation Loss-Gradient Momentum1 Layers66.067.068.069 .070.071.0AUC68.5869 .4069.9068.6269.0468 .9069.8070.1968.9769 .8970.31NewsBERT-Hid den Loss-Distillation Loss-Gradient Momentum0.00.00.00.0 50.50.5050.50505050. 0750.0773.0773.0773. 0773.0770.0669.0669. 0669.0669.0669.0669. 0669.0669.0669.0669. 0669.0669.0669.0669. 0669.0669.0669.0669. 0669.0669.0669.07707 07070.83.06707070.83 .0669.0669.0669.0669 .0669.73 レイヤ 0.10
英語(論文から抽出)日本語訳スコア
and distillation framework to collaboratively train both teacher and student models, where the student model can learn from the learning experience of the teacher model and the teacher model is aware of the learning of student model. また,教師モデルと生徒モデルの両方を共同で学習する蒸留フレームワークを構築し,教師モデルの学習経験から生徒モデルを学ぶことができ,教師モデルも生徒モデルの学習を意識している。 0.89
In addition, we propose a momentum distillation method that combines the gradients of the teacher model with the gradients of the student model in a momentum way, which can boost the learning of student model by injecting the knowledge learned by the teacher. さらに,教師モデルの勾配と生徒モデルの勾配をモーメント的に組み合わせたモーメント蒸留法を提案し,教師が学習した知識を注入することで,生徒モデルの学習を促進することができる。 0.76
We conduct extensive experiments on two real-world datasets with three different news intelligence tasks, and the results demonstrate that our NewsBERT approach can effectively improve the performance of these tasks with considerably smaller models. 我々は3つの異なるニュースインテリジェンスタスクを持つ2つの実世界のデータセットに対して広範な実験を行い、その結果、我々のNewsBERTアプローチがより小さなモデルでこれらのタスクの性能を効果的に改善できることを実証した。 0.66
In future, we plan to deploy NewsBERT in online news intelligence applications like personalized news recommendation and news retrieval to improve user experiences. 将来的には、パーソナライズされたニュースレコメンデーションやニュース検索などのオンラインニュースインテリジェンスアプリケーションにNewsBERTを展開し、ユーザーエクスペリエンスを向上させる予定です。 0.78
We will also apply our NewsBERT approach to more intelligent news applications to improve their model performance in an efficient way. また、よりインテリジェントなニュースアプリケーションにNewsBERTアプローチを適用し、モデルのパフォーマンスを効率的に改善します。 0.79
We are also interested in developing more effective knowledge distillation method to better compress pre-trained language models and maximally keep their performance. また,事前学習した言語モデルを圧縮し,その性能を最大限に維持する,より効果的な知識蒸留法の開発にも関心がある。
訳抜け防止モード: 私たちはまた 事前訓練された言語モデルをより良く圧縮し、パフォーマンスを最大に保つためのより効果的な知識蒸留法の開発。
0.66
REFERENCES [1] Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, et al. REFERENCES [1]Hangbo Bao、Li Dong、Furu Wei、Wenhui Wang、Nan Yang、Xiaodong Liu、Yu Wang、Jianfeng Gao、Songhao Piao、Ming Zhou、等。 0.71
2020. Unilmv2: Pseudomasked language models for unified language model pre-training. 2020. Unilmv2: 統一言語モデル事前トレーニングのためのPseudomasked言語モデル。 0.80
In ICML. PMLR, 642–652. ICMLで。 PMLR 642-652。 0.76
[2] Yoshua Bengio and Yann LeCun. [2]ヨシュア・ベンジオとヤン・レクン。 0.56
2015. Adam: A Method for Stochastic Optimiza- 2015. Adam: 確率的オプティマイザの方法 0.74
tion. In ICLR. 禁忌だ ICLRで。 0.51
[3] Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. 3] Peter Bourgonje、Julian Moreno Schneider、Georg Rehm。 0.61
2017. From clickbait to fake news detection: an approach based on detecting the stance of headlines to articles. 2017. クリックベイトからフェイクニュース検出まで:記事への見出しのスタンスを検出するためのアプローチ。 0.81
In EMNLP 2017 Workshop: Natural Language Processing meets Journalism. EMNLP 2017ワークショップ:自然言語処理はジャーナリズムを満たします。 0.77
84–89. [4] Ricardo Carreira, Jaime M Crato, Daniel Gonçalves, and Joaquim A Jorge. 84–89. 4] Ricardo Carreira、Jaime M Crato、Daniel Gonçalves、Joaquim A Jorge。 0.67
2004. Evaluating adaptive user profiles for news classification. 2004. ニュース分類のための適応型ユーザプロファイルの評価 0.81
In IUI. 206–212. IUIで。 206–212. 0.73
[5] Matteo Catena, Ophir Frieder, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, and Nicola Tonellotto. 5]Matteo Catena, Ophir Frieder, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Nicola Tonellotto。 0.72
2019. Enhanced News Retrieval: Passages Lead the Way!. 2019. 強化されたニュース検索: 通行が道をリード! 0.79
In SIGIR. 1269–1272. SIGIR所属。 1269–1272. 0.65
[6] Xuanang Chen, Ben He, Kai Hui, Le Sun, and Yingfei Sun. [6]Xuanang Chen、Ben He、Kai Hui、Le Sun、Yingfei Sun。 0.70
2020. Simplified TinyBERT: Knowledge Distillation for Document Retrieval. 2020. Simplified TinyBERT: ドキュメント検索のための知識蒸留。 0.82
arXiv preprint arXiv:2009.07531 (2020). arXiv preprint arXiv:2009.07531 (2020) 0.82
[7] Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, and Ming Zhou. 7] Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou。 0.79
2020. Infoxlm: An information-theoreti c framework for cross-lingual language model pre-training. 2020. Infoxlm: 言語モデルの事前トレーニングのための情報理論フレームワーク。 0.81
arXiv preprint arXiv:2007.07834 (2020). arXiv preprint arXiv:2007.07834 (2020) 0.82
[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 8] Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.73
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT:言語理解のための深度双方向変換器の事前トレーニング。 0.76
In NAACL-HLT. NAACL-HLTで。 0.64
4171–4186. 4171–4186. 0.71
for headline generation. ヘッドライン世代のために。 0.49
In ECIR. Springer, 87–93. ECIRで。 87-93頁。 0.66
[10] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 10] Kaming He、Haoqi Fan、Yuxin Wu、Saning Xie、Ross Girshick。 0.57
2020. Momentum contrast for unsupervised visual representation learning. 2020. 教師なし視覚表現学習におけるモメンタムコントラスト 0.74
In CVPR. 9729– 9738. CVPRで。 9729– 9738. 0.83
[11] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 11] Geoffrey Hinton、Oriol Vinyals、Jeff Dean。 0.65
2015. Distilling the knowledge in 2015. 知識を蒸留する. 0.79
[9] Daniil Gavrilov, Pavel Kalaidin, and Valentin Malykh. 9] Daniil Gavrilov、Pavel Kalaidin、Valentin Malykh。 0.59
2019. Self-attentive model 2019. 自己注意モデル 0.78
[12] Eric Jang, Shixiang Gu, and Ben Poole. [12]Eric Jang、Shixiang Gu、Ben Poole。 0.67
2016. Categorical reparameterization 2016. カテゴリー再パラメータ化 0.69
[14] Yoon Kim and Alexander M Rush. 14]Yoon KimとAlexander M Rush。 0.69
2016. Sequence-Level Knowledge Distillation. 2016. シーケンスレベル知識蒸留。 0.80
a neural network. ニューラルネットワーク。 0.54
arXiv preprint arXiv:1503.02531 (2015). arXiv preprint arXiv:1503.02531 (2015)。 0.77
with gumbel-softmax. gumbel-softmaxで。 0.64
arXiv preprint arXiv:1611.01144 (2016). arXiv preprint arXiv:1611.01144 (2016)。 0.77
[13] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. [13]Xiaoqi Jiao、Yichun Yin、Lifeng Shang、Xin Jiang、Xiao Chen、Linlin Li、Fang Wang、Qun Liu。
訳抜け防止モード: [13 ]Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang とQun Liuは言う。
0.81
2020. TinyBERT: Distilling BERT for Natural Language Understanding. 2020. TinyBERT:自然言語理解のためのBERTの蒸留。 0.78
In EMNLP Findings. 4163–4174. EMNLPで発見。 4163–4174. 0.67
In EMNLP. 1317–1327. EMNLPで。 1317–1327. 0.71
[15] Jianxun Lian, Fuzheng Zhang, Xing Xie, and Guangzhong Sun. [15]Jianxun Lian、Fuzheng Zhang、Xing Xie、Guangzhong Sun。 0.70
2018. Towards Better Representation Learning for Personalized News Recommendation: a MultiChannel Deep Fusion Approach.. 2018. パーソナライズされたニュース推奨のための表現学習の改善に向けて: マルチチャネルディープフュージョンアプローチ。 0.82
In IJCAI. 3805–3811. IJCAI出身。 3805–3811. 0.68
[16] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu氏、Myle Ott氏、Naman Goyal氏、Jingfei Du氏、Mandar Joshi氏、Danqi Chen氏、Omer Levy氏、Mike Lewis氏、Luke Zettlemoyer氏、Veslin Stoyanov氏。 0.74
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692 (2019). arXiv preprint arXiv:1907.11692 (2019)。 0.76
[17] Wenhao Lu, Jian Jiao, and Ruofei Zhang. 17] Wenhao Lu、Jian Jiao、Ruofei Zhang。 0.59
2020. TwinBERT: Distilling Knowledge to Twin-Structured Compressed BERT Models for Large-Scale Retrieval. 2020. TwinBERT: 大規模検索のためのツイン構造圧縮BERTモデルへの知識の蒸留。 0.73
In CIKM. 2645–2652. CIKMで。 2645–2652. 0.72
[18] Seyed Iman Mirzadeh, Mehrdad Farajtabar, Ang Li, Nir Levine, Akihiro Matsukawa, and Hassan Ghasemzadeh. 18] Iman Mirzadeh, Mehrdad Farajtabar, Anng Li, Nir Levine, Akihiro Matsukawa, そしてHassan Ghasemzadeh。 0.69
2020. Improved knowledge distillation via teacher assistant. 2020. 教員助手による知識蒸留の改良 0.79
In AAAI, Vol. AAAIでは、Vol。 0.78
34. 5191–5198. 34. 5191–5198. 0.78
[19] Shumpei Okura, Yukihiro Tagami, Shingo Ono, and Akira Tajima. 【19】大倉春平、田上幸弘、小野真吾、田島明。 0.42
2017. Embedding-based news recommendation for millions of users. 2017. 何百万ものユーザーのための埋め込みベースのニュースレコメンデーション。 0.68
In KDD. ACM, 1933–1942. KDDで。 1933-1942年。 0.74
[20] Jeffrey Pennington, Richard Socher, and Christopher Manning. 20] Jeffrey Pennington、Richard Socher、Christopher Manning。 0.64
2014. Glove: 2014. Glove: 0.85
[28] Chi Sun, Xipeng Qiu, Yige Xu, and Xuanjing Huang. [28]チ・サン、Xipeng Qiu、Yige Xu、Xuanjing Huang。 0.70
2019. How to fine-tune 2019. 微調整の仕方 0.63
[21] Ning Qian. [21] Ning Qian。 0.76
1999. On the momentum term in gradient descent learning algorithms. 1999. 勾配降下学習アルゴリズムにおける運動量項について 0.78
[29] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. [29] Siqi Sun、Yu Cheng、Zhe Gan、Jingjing Liu。 0.67
2019. Patient Knowledge Distilla- 2019. 患者知識ディティラ- 0.84
Global vectors for word representation. 単語表現のためのグローバルベクトル。 0.76
In EMNLP. 1532–1543. EMNLPで。 1532–1543. 0.71
Neural networks 12, 1 (1999), 145–151. ニューラルネットワーク 12, 1 (1999), 145–151。 0.78
[22] Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. [22] Xipeng Qiu、Tianxiang Sun、Yige Xu、Yunfan Shao、Ning Dai、Xuanjing Huang。 0.71
2020. Pre-trained models for natural language processing: A survey. 2020. 自然言語処理のための事前訓練モデル:調査。 0.85
Science China Technological Sciences (2020), 1–26. 科学中国技術科学(2020)、1-26。 0.81
[23] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford氏、Jeffrey Wu氏、Rewon Child氏、David Luan氏、Dario Amodei氏、Ilya Sutskever氏。 0.68
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
OpenAI blog 1, 8 (2019), 9. OpenAI blog 1, 8 (2019), 9。 0.77
[24] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf.[24]Victor Sanh, Lysandre Debut. 0.87
2019. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. 2019. DistilBERT、BERTの蒸留版:より小さく、より速く、より安く、より軽い。 0.79
arXiv preprint arXiv:1910.01108 (2019). arXiv preprint arXiv:1910.01108 (2019)。 0.76
[25] Kai Shu, Limeng Cui, Suhang Wang, Dongwon Lee, and Huan Liu. [25]Kai Shu、Limeng Cui、Suhang Wang、Dongwon Lee、Huan Liu。 0.63
2019. defend: Explainable fake news detection. 2019年。 defend: explainsable fake news detection。 0.88
In KDD. 395–405. KDDで。 395–405. 0.71
[26] Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, and Huan Liu. [26]Kai Shu、Amy Sliva、Suhang Wang、Jiliang Tang、Huan Liu。 0.60
2017. Fake news detection on social media: A data mining perspective. 2017. ソーシャルメディアにおける偽ニュース検出:データマイニングの観点から 0.84
ACM SIGKDD explorations newsletter 19, 1 (2017), 22–36. ACM SIGKDDの調査ニュースレター19, 1 (2017), 22–36。 0.78
[27] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Nitish Srivastava氏、Geoffrey E Hinton氏、Alex Krizhevsky氏、Ilya Sutskever氏、Ruslan Salakhutdinov氏。 0.65
2014. Dropout: a simple way to prevent neural networks from overfitting. 2014. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.79
JMLR 15, 1 (2014), 1929–1958. JMLR 15, 1 (2014), 1929–1958。 0.87
BERT for text classification?. BERT for text classification? 0.70
In CCL. Springer, 194–206. CCLで。 スプリンガー、194-206。 0.65
tion for BERT Model Compression. BERTモデル圧縮のためのオプション。 0.72
In EMNLP-IJCNLP. EMNLP-IJCNLP。 0.71
4314–4323. 4314–4323. 0.71
[30] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. [30]Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou。 0.73
2020. MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices. 2020. MobileBERT: リソース限定デバイス用のコンパクトなタスク診断BERT。 0.77
In ACL. 2158–2170. ACL所属。 2158–2170. 0.71
[31] Jiwei Tan, Xiaojun Wan, and Jianguo Xiao. [31]Jiwei Tan、Xiaojun Wan、Jianguo Xiao。 0.63
2017. From Neural Sentence Summarization to Headline Generation: A Coarse-to-Fine Approach.. 2017. ニューラルネットワークの要約から見出し生成へ:粗大から細かなアプローチ 0.71
In IJCAI, Vol. IJCAIで、Vol。 0.58
17. 4109–4115. 17. 4109–4115. 0.78
[32] Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, and Jimmy Lin. 32] Raphael Tang、Yao Lu、Linqing Liu、Lili Mou、Olga Vechtomova、Jimmy Lin。 0.64
2019. Distilling task-specific knowledge from bert into simple neural networks. 2019. バートからタスク固有の知識を単純なニューラルネットワークに蒸留する。 0.72
arXiv preprint arXiv:1903.12136 (2019). arXiv preprint arXiv:1903.12136 (2019) 0.83
[33] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. [33]Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.68
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In NIPS. 5998–6008. NIPS所属。 5998–6008. 0.67
[34] Wenhui Wang, Hangbo Bao, Shaohan Huang, Li Dong, and Furu Wei. 34] Wenhui Wang、Hangbo Bao、Shaohan Huang、Li Dong、Furu Wei。 0.64
2020. MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers. 2020. MiniLMv2: 圧縮予備変圧器用マルチヘッド自己注意関係蒸留 0.78
arXiv preprint arXiv:2012.15828 (2020). arXiv preprint arXiv:2012.15828 (2020)。 0.76
[35] Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. 35] Wenhui Wang、Furu Wei、Li Dong、Hangbo Bao、Nan Yang、Ming Zhou。 0.64
2020. MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers. 2020. MiniLM:事前学習変圧器のタスク非依存圧縮のための深部自己注意蒸留 0.70
In NeurIPS. NeurIPSに登場。 0.80
[36] Chuhan Wu, Fangzhao Wu, Mingxiao An, Jianqiang Huang, Yongfeng Huang, and Xing Xie. [36] Chuhan Wu、Fangzhao Wu、Mingxiao An、Jianqiang Huang、Yongfeng Huang、Xing Xie。 0.69
2019. Neural News Recommendation with Attentive Multi-View Learning. 2019. 注意深いマルチビュー学習によるニューラルニュース推奨 0.82
In IJCAI. 3863–3869. IJCAI出身。 3863–3869. 0.68
[37] Chuhan Wu, Fangzhao Wu, Mingxiao An, Jianqiang Huang, Yongfeng Huang, and Xing Xie. 37] Chuhan Wu、Fangzhao Wu、Mingxiao An、Jianqiang Huang、Yongfeng Huang、Xing Xie。 0.66
2019. Npa: Neural news recommendation with personalized attention. 2019. Npa: パーソナライズされた注目のニューラルニュースレコメンデーション。 0.78
In KDD. 2576–2584. KDDで。 2576–2584. 0.71
[38] Chuhan Wu, Fangzhao Wu, Mingxiao An, Yongfeng Huang, and Xing Xie. 38] Chuhan Wu、Fangzhao Wu、Mingxiao An、Yongfeng Huang、Xing Xie。 0.64
2019. Neural News Recommendation with Topic-Aware News Representation. 2019. Topic-Aware News Representationによるニューラルニュース推奨 0.85
In ACL. 1154–1159. ACL所属。 1154–1159. 0.71
[39] Chuhan Wu, Fangzhao Wu, Suyu Ge, Tao Qi, Yongfeng Huang, and Xing Xie. 39] Chuhan Wu、Fangzhao Wu、Suyu Ge、Tao Qi、Yongfeng Huang、Xing Xie。 0.63
2019. Neural News Recommendation with Multi-Head Self-Attention. 2019. マルチヘッド・セルフアテンションによるニューラルニュース推薦 0.72
In EMNLP. 6390–6395. EMNLPで。 6390–6395. 0.71
[40] Fangzhao Wu, Ying Qiao, Jiun-Hung Chen, Chuhan Wu, Tao Qi, Jianxun Lian, Danyang Liu, Xing Xie, Jianfeng Gao, Winnie Wu, et al. [40]Fangzhao Wu, Ying Qiao, Jiun-Hung Chen, Chuhan Wu, Tao Qi, Jianxun Lian, Danyang Liu, Xing Xie, Jianfeng Gao, Winnie Wuなど。 0.81
2020. MIND: A Largescale Dataset for News Recommendation. 2020. MIND:ニュースレコメンデーションのための大規模データセット。 0.79
In ACL. 3597–3606. ACL所属。 3597–3606. 0.71
[41] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and Ming Zhou. [41]Canwen Xu、Wangchunshu Zhou、Tao Ge、Furu Wei、Ming Zhou。 0.64
2020. BERTof-Theseus: Compressing BERT by Progressive Module Replacing. 2020. BERTof-Theseus:Progr essive Module ReplacingによるBERT圧縮。 0.76
In EMNLP. 7859–7869. EMNLPで。 7859–7869. 0.71
[42] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. [42] Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov、Quoc V Le。 0.66
2019. XLNet: Generalized Autoregressive Pretraining for Language Understanding. 2019. XLNet: 言語理解のための一般化自動回帰プリトレーニング。 0.75
In NeurIPS, Vol. NeurIPSでは、Vol。 0.72
32. 5753–5763. 32. 5753–5763. 0.78
[43] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 43]Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, Eduard Hovy。 0.66
2016. Hierarchical attention networks for document classification. 2016. 文書分類のための階層的注意ネットワーク 0.83
In NAACL-HLT. NAACL-HLTで。 0.64
1480–1489. 1480–1489. 0.71
mutual learning. In CVPR. 相互学習。 CVPRで。 0.71
4320–4328. 4320–4328. 0.71
[44] Ying Zhang, Tao Xiang, Timothy M Hospedales, and Huchuan Lu. [44]ying Zhang, Tao Xiang, Timothy M Hospedales, Huchuan Lu。 0.72
2018. Deep 2018. 深く 0.77
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。