論文の概要: AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation
Framework For Multilingual Language Inference
- arxiv url: http://arxiv.org/abs/2305.07928v1
- Date: Sat, 13 May 2023 14:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:39:06.944964
- Title: AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation
Framework For Multilingual Language Inference
- Title(参考訳): AMTSS:多言語言語推論のための適応型マルチ教師単段階知識蒸留フレームワーク
- Authors: Qianglong Chen, Feng Ji, Feng-Lin Li, Guohai Xu, Ming Yan, Ji Zhang
and Yin Zhang
- Abstract要約: AMTSSは適応型マルチ教師によるシングルスチューデント蒸留フレームワークである。
まず,適応的な学習戦略と教師の重みを導入し,学生が最上級の教師から効果的に学習できるようにする。
複数の言語をサポートする異なるプロジェクション層を持つ学生を共用し、開発コストと機械コストを大幅に削減することに寄与する。
- 参考スコア(独自算出の注目度): 27.333905128454546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation is of key importance to launching multilingual
pre-trained language models for real applications. To support cost-effective
language inference in multilingual settings, we propose AMTSS, an adaptive
multi-teacher single-student distillation framework, which allows distilling
knowledge from multiple teachers to a single student. We first introduce an
adaptive learning strategy and teacher importance weight, which enables a
student to effectively learn from max-margin teachers and easily adapt to new
languages. Moreover, we present a shared student encoder with different
projection layers in support of multiple languages, which contributes to
largely reducing development and machine cost. Experimental results show that
AMTSS gains competitive results on the public XNLI dataset and the realistic
industrial dataset AliExpress (AE) in the E-commerce scenario.
- Abstract(参考訳): 知識蒸留は、実アプリケーションのための多言語事前学習言語モデルをローンチする上で重要である。
多言語環境での費用対効果のある言語推論を支援するために,複数の教師から1人の学生への知識の蒸留を可能にする適応型多教師単学生蒸留フレームワークであるAMTSSを提案する。
まず,適応型学習戦略と教師重要度重みを導入し,生徒がマックスマージン教師から効果的に学び,新しい言語に容易に適応できるようにする。
さらに,複数の言語をサポートする異なるプロジェクション層を持つ共有学生エンコーダを提案する。
AMTSSは,Eコマースシナリオにおいて,パブリックXNLIデータセットとリアル産業データセットAliExpress(AE)の競争結果を得ることを示す。
関連論文リスト
- Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - UM4: Unified Multilingual Multiple Teacher-Student Model for
Zero-Resource Neural Machine Translation [102.04003089261761]
MNMT(Multilingual Neural Machine Translation)は、すべての言語で共有セマンティック空間を用いたワンパス翻訳を可能にする。
NMTのための統一多言語多言語学習モデル(UM4)を提案する。
本手法は,ゼロリソース翻訳の学生モデルを指導するために,ソース・教師,ターゲット・教師,ピボット・教師のモデルを統一する。
論文 参考訳(メタデータ) (2022-07-11T14:22:59Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - LightMBERT: A Simple Yet Effective Method for Multilingual BERT
Distillation [45.65004479806485]
多言語プリトレーニング言語モデルは、多言語の自然言語理解タスクで印象的なパフォーマンスを示しています。
これらのモデルは計算集約的であり、リソース制限されたデバイスへのデプロイが困難である。
我々は,多言語BERTの言語間一般化能力を小学生モデルに伝達するための簡易かつ効果的な蒸留法(LightMBERT)を提案する。
論文 参考訳(メタデータ) (2021-03-11T02:24:41Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。