論文の概要: LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation
- arxiv url: http://arxiv.org/abs/2103.06418v1
- Date: Thu, 11 Mar 2021 02:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 05:28:53.364220
- Title: LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation
- Title(参考訳): LightMBERT:多言語BERT蒸留の簡便かつ効果的な方法
- Authors: Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin
Li, Fang Wang and Qun Liu
- Abstract要約: 多言語プリトレーニング言語モデルは、多言語の自然言語理解タスクで印象的なパフォーマンスを示しています。
これらのモデルは計算集約的であり、リソース制限されたデバイスへのデプロイが困難である。
我々は,多言語BERTの言語間一般化能力を小学生モデルに伝達するための簡易かつ効果的な蒸留法(LightMBERT)を提案する。
- 参考スコア(独自算出の注目度): 45.65004479806485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multilingual pre-trained language models (e.g, mBERT, XLM and XLM-R) have
shown impressive performance on cross-lingual natural language understanding
tasks. However, these models are computationally intensive and difficult to be
deployed on resource-restricted devices. In this paper, we propose a simple yet
effective distillation method (LightMBERT) for transferring the cross-lingual
generalization ability of the multilingual BERT to a small student model. The
experiment results empirically demonstrate the efficiency and effectiveness of
LightMBERT, which is significantly better than the baselines and performs
comparable to the teacher mBERT.
- Abstract(参考訳): 多言語プリトレーニング言語モデル(例えば、mBERT、XLM、XLM-R)は、多言語の自然言語理解タスクで印象的なパフォーマンスを示した。
しかし、これらのモデルは計算集約的であり、リソース制限されたデバイスにデプロイすることは困難である。
本論文では,マルチリンガルBERTのクロスリンガル一般化能力を小さな学生モデルに伝達するための簡便かつ効果的な蒸留法(LightMBERT)を提案する。
本実験は,教師mBERTに匹敵する,ベースラインよりもはるかに優れたLightMBERTの有効性と有効性を実証的に実証した。
関連論文リスト
- Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation
Framework For Multilingual Language Inference [27.333905128454546]
AMTSSは適応型マルチ教師によるシングルスチューデント蒸留フレームワークである。
まず,適応的な学習戦略と教師の重みを導入し,学生が最上級の教師から効果的に学習できるようにする。
複数の言語をサポートする異なるプロジェクション層を持つ学生を共用し、開発コストと機械コストを大幅に削減することに寄与する。
論文 参考訳(メタデータ) (2023-05-13T14:42:30Z) - Not All Languages Are Created Equal in LLMs: Improving Multilingual
Capability by Cross-Lingual-Thought Prompting [123.16452714740106]
大規模言語モデル(LLM)は印象的な多言語機能を示すが、その性能は言語によって大きく異なる。
XLT (cross-lingual- Thought prompting) という,シンプルで効果的な方法を提案する。
XLTは汎用テンプレートプロンプトで、言語間および論理的推論スキルを刺激し、言語間のタスクパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-05-11T17:44:17Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Multilingual Relation Classification via Efficient and Effective
Prompting [9.119073318043952]
本稿では,プロンプトベース多言語関係分類(RC)に関する最初の研究について述べる。
本稿では,関係3重項からプロンプトを合成し,クラスラベルの最小翻訳のみを伴う効率的かつ効率的な手法を提案する。
完全教師付き、少数ショット、ゼロショットのシナリオでその性能を評価し、14言語でその有効性を分析した。
論文 参考訳(メタデータ) (2022-10-25T08:40:23Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。