論文の概要: LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation
- arxiv url: http://arxiv.org/abs/2103.06418v1
- Date: Thu, 11 Mar 2021 02:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 05:28:53.364220
- Title: LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation
- Title(参考訳): LightMBERT:多言語BERT蒸留の簡便かつ効果的な方法
- Authors: Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin
Li, Fang Wang and Qun Liu
- Abstract要約: 多言語プリトレーニング言語モデルは、多言語の自然言語理解タスクで印象的なパフォーマンスを示しています。
これらのモデルは計算集約的であり、リソース制限されたデバイスへのデプロイが困難である。
我々は,多言語BERTの言語間一般化能力を小学生モデルに伝達するための簡易かつ効果的な蒸留法(LightMBERT)を提案する。
- 参考スコア(独自算出の注目度): 45.65004479806485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multilingual pre-trained language models (e.g, mBERT, XLM and XLM-R) have
shown impressive performance on cross-lingual natural language understanding
tasks. However, these models are computationally intensive and difficult to be
deployed on resource-restricted devices. In this paper, we propose a simple yet
effective distillation method (LightMBERT) for transferring the cross-lingual
generalization ability of the multilingual BERT to a small student model. The
experiment results empirically demonstrate the efficiency and effectiveness of
LightMBERT, which is significantly better than the baselines and performs
comparable to the teacher mBERT.
- Abstract(参考訳): 多言語プリトレーニング言語モデル(例えば、mBERT、XLM、XLM-R)は、多言語の自然言語理解タスクで印象的なパフォーマンスを示した。
しかし、これらのモデルは計算集約的であり、リソース制限されたデバイスにデプロイすることは困難である。
本論文では,マルチリンガルBERTのクロスリンガル一般化能力を小さな学生モデルに伝達するための簡便かつ効果的な蒸留法(LightMBERT)を提案する。
本実験は,教師mBERTに匹敵する,ベースラインよりもはるかに優れたLightMBERTの有効性と有効性を実証的に実証した。
関連論文リスト
- Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。
英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。
能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:33:16Z) - Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation
Framework For Multilingual Language Inference [27.333905128454546]
AMTSSは適応型マルチ教師によるシングルスチューデント蒸留フレームワークである。
まず,適応的な学習戦略と教師の重みを導入し,学生が最上級の教師から効果的に学習できるようにする。
複数の言語をサポートする異なるプロジェクション層を持つ学生を共用し、開発コストと機械コストを大幅に削減することに寄与する。
論文 参考訳(メタデータ) (2023-05-13T14:42:30Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Multilingual Relation Classification via Efficient and Effective
Prompting [9.119073318043952]
本稿では,プロンプトベース多言語関係分類(RC)に関する最初の研究について述べる。
本稿では,関係3重項からプロンプトを合成し,クラスラベルの最小翻訳のみを伴う効率的かつ効率的な手法を提案する。
完全教師付き、少数ショット、ゼロショットのシナリオでその性能を評価し、14言語でその有効性を分析した。
論文 参考訳(メタデータ) (2022-10-25T08:40:23Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。