Fugu-MT 論文翻訳(概要): LightMBERT: A Simple Yet Effective Method for Multilingual BERT Distillation

論文の概要: LightMBERT: A Simple Yet Effective Method for Multilingual BERT Distillation

arxiv url: http://arxiv.org/abs/2103.06418v1
Date: Thu, 11 Mar 2021 02:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-13 05:28:53.364220
Title: LightMBERT: A Simple Yet Effective Method for Multilingual BERT Distillation
Title（参考訳）: LightMBERT:多言語BERT蒸留の簡便かつ効果的な方法
Authors: Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang and Qun Liu
Abstract要約: 多言語プリトレーニング言語モデルは、多言語の自然言語理解タスクで印象的なパフォーマンスを示しています。これらのモデルは計算集約的であり、リソース制限されたデバイスへのデプロイが困難である。我々は,多言語BERTの言語間一般化能力を小学生モデルに伝達するための簡易かつ効果的な蒸留法(LightMBERT)を提案する。
参考スコア（独自算出の注目度）: 45.65004479806485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The multilingual pre-trained language models (e.g, mBERT, XLM and XLM-R) have shown impressive performance on cross-lingual natural language understanding tasks. However, these models are computationally intensive and difficult to be deployed on resource-restricted devices. In this paper, we propose a simple yet effective distillation method (LightMBERT) for transferring the cross-lingual generalization ability of the multilingual BERT to a small student model. The experiment results empirically demonstrate the efficiency and effectiveness of LightMBERT, which is significantly better than the baselines and performs comparable to the teacher mBERT.
Abstract（参考訳）: 多言語プリトレーニング言語モデル(例えば、mBERT、XLM、XLM-R)は、多言語の自然言語理解タスクで印象的なパフォーマンスを示した。しかし、これらのモデルは計算集約的であり、リソース制限されたデバイスにデプロイすることは困難である。本論文では,マルチリンガルBERTのクロスリンガル一般化能力を小さな学生モデルに伝達するための簡便かつ効果的な蒸留法(LightMBERT)を提案する。本実験は,教師mBERTに匹敵する,ベースラインよりもはるかに優れたLightMBERTの有効性と有効性を実証的に実証した。

関連論文リスト

Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文参考訳（メタデータ） (2024-10-21T16:33:16Z)
Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文参考訳（メタデータ） (2024-10-10T11:23:18Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation Framework For Multilingual Language Inference [27.333905128454546]
AMTSSは適応型マルチ教師によるシングルスチューデント蒸留フレームワークである。まず,適応的な学習戦略と教師の重みを導入し,学生が最上級の教師から効果的に学習できるようにする。複数の言語をサポートする異なるプロジェクション層を持つ学生を共用し、開発コストと機械コストを大幅に削減することに寄与する。
論文参考訳（メタデータ） (2023-05-13T14:42:30Z)
LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2022-11-10T05:09:16Z)
Multilingual Relation Classification via Efficient and Effective Prompting [9.119073318043952]
本稿では,プロンプトベース多言語関係分類(RC)に関する最初の研究について述べる。本稿では,関係3重項からプロンプトを合成し,クラスラベルの最小翻訳のみを伴う効率的かつ効率的な手法を提案する。完全教師付き、少数ショット、ゼロショットのシナリオでその性能を評価し、14言語でその有効性を分析した。
論文参考訳（メタデータ） (2022-10-25T08:40:23Z)
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文参考訳（メタデータ） (2022-05-31T12:29:25Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文参考訳（メタデータ） (2021-08-02T12:08:19Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。