論文の概要: NewsBERT: Distilling Pre-trained Language Model for Intelligent News
Application
- arxiv url: http://arxiv.org/abs/2102.04887v1
- Date: Tue, 9 Feb 2021 15:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 20:00:36.966975
- Title: NewsBERT: Distilling Pre-trained Language Model for Intelligent News
Application
- Title(参考訳): NewsBERT: インテリジェントニュースアプリケーションのための事前学習型言語モデル
- Authors: Chuhan Wu, Fangzhao Wu, Yang Yu, Tao Qi, Yongfeng Huang, Qi Liu
- Abstract要約: 本稿では,学習済み言語モデルを抽出し,効率的なニュースインテリジェンスを実現するNewsBERTを提案する。
そこで本研究では,教師と学生の共学モデルを協調的に学習するための,教師と学生の共学学習・蒸留の枠組みを設計する。
実験では,NewsBERTはより小さなモデルで,様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に向上させることができる。
- 参考スコア(独自算出の注目度): 56.1830016521422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) like BERT have made great progress in NLP.
News articles usually contain rich textual information, and PLMs have the
potentials to enhance news text modeling for various intelligent news
applications like news recommendation and retrieval. However, most existing
PLMs are in huge size with hundreds of millions of parameters. Many online news
applications need to serve millions of users with low latency tolerance, which
poses huge challenges to incorporating PLMs in these scenarios. Knowledge
distillation techniques can compress a large PLM into a much smaller one and
meanwhile keeps good performance. However, existing language models are
pre-trained and distilled on general corpus like Wikipedia, which has some gaps
with the news domain and may be suboptimal for news intelligence. In this
paper, we propose NewsBERT, which can distill PLMs for efficient and effective
news intelligence. In our approach, we design a teacher-student joint learning
and distillation framework to collaboratively learn both teacher and student
models, where the student model can learn from the learning experience of the
teacher model. In addition, we propose a momentum distillation method by
incorporating the gradients of teacher model into the update of student model
to better transfer useful knowledge learned by the teacher model. Extensive
experiments on two real-world datasets with three tasks show that NewsBERT can
effectively improve the model performance in various intelligent news
applications with much smaller models.
- Abstract(参考訳): BERTのような事前訓練言語モデル(PLM)はNLPに大きな進歩をもたらした。
ニュース記事は通常リッチなテキスト情報を含み、PLMはニュースレコメンデーションや検索のような様々なインテリジェントなニュースアプリケーションのためのニューステキストモデリングを強化する可能性がある。
しかし、ほとんどの既存のPLMは、数億のパラメータを持つ巨大なサイズです。
多くのオンラインニュースアプリケーションは、数百万のユーザに低レイテンシ耐性を提供する必要があるため、これらのシナリオにplmを組み込むことには大きな課題がある。
知識蒸留技術は、大きなPLMをはるかに小さく圧縮し、優れた性能を維持することができる。
しかし、既存の言語モデルは、Wikipediaのような一般的なコーパスで事前に訓練され、蒸留されています。
本稿では,効率的なニュースインテリジェンスのためにPLMを蒸留できるNewsBERTを提案する。
本研究では,教師モデルと生徒モデルの両方を協調的に学習するための,教師と学生の合同学習と蒸留の枠組みを設計し,教師モデルの学習経験から学習できる。
また,教師モデルの勾配を生徒モデルの更新に組み込むことにより,教師モデルで学習した有用な知識をよりよく伝達する運動量蒸留法を提案する。
3つのタスクを持つ2つの実世界のデータセットに対する大規模な実験は、NewsBERTがより小さなモデルで様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に改善できることを示している。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Talking Models: Distill Pre-trained Knowledge to Downstream Models via
Interactive Communication [25.653517213641575]
我々は、下流の課題の学生が事前学習された基礎モデルから効果的に学習するのに役立つ対話型コミュニケーションプロセスを開発する。
私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から、人間が学ぶ方法にインスピレーションを受けています。
論文 参考訳(メタデータ) (2023-10-04T22:22:21Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts [2.0305676256390934]
本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
論文 参考訳(メタデータ) (2021-08-24T20:23:30Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Training Microsoft News Recommenders with Pretrained Language Models in
the Loop [22.96193782709208]
優れた品質のPLMニュースレコメンダーを効率的にトレーニングする新しいフレームワークであるSpeedyFeedを提案します。
speedyfeedは、繰り返しだが冗長なエンコーディング操作のほとんどを取り除く軽量エンコーディングパイプラインで強調されている。
PLMsベースのモデルは、総合的なオフライン実験において最先端のニュースレコメンデーションよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-02-18T11:08:38Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。