Fugu-MT 論文翻訳(概要): MergeDistill: Merging Pre-trained Language Models using Distillation

論文の概要: MergeDistill: Merging Pre-trained Language Models using Distillation

arxiv url: http://arxiv.org/abs/2106.02834v1
Date: Sat, 5 Jun 2021 08:22:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 18:17:25.828642
Title: MergeDistill: Merging Pre-trained Language Models using Distillation
Title（参考訳）: MergeDistill: 蒸留を用いた事前学習言語モデルのマージ
Authors: Simran Khanuja, Melvin Johnson, Partha Talukdar
Abstract要約: 我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
参考スコア（独自算出の注目度）: 5.396915402673246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained multilingual language models (LMs) have achieved state-of-the-art results in cross-lingual transfer, but they often lead to an inequitable representation of languages due to limited capacity, skewed pre-training data, and sub-optimal vocabularies. This has prompted the creation of an ever-growing pre-trained model universe, where each model is trained on large amounts of language or domain specific data with a carefully curated, linguistically informed vocabulary. However, doing so brings us back full circle and prevents one from leveraging the benefits of multilinguality. To address the gaps at both ends of the spectrum, we propose MergeDistill, a framework to merge pre-trained LMs in a way that can best leverage their assets with minimal dependencies, using task-agnostic knowledge distillation. We demonstrate the applicability of our framework in a practical setting by leveraging pre-existing teacher LMs and training student LMs that perform competitively with or even outperform teacher LMs trained on several orders of magnitude more data and with a fixed model capacity. We also highlight the importance of teacher selection and its impact on student model performance.
Abstract（参考訳）: 事前学習された多言語言語モデル (lms) は、言語間移動の最先端の結果を得たが、能力の制限、歪んだ事前学習データ、および副最適語彙のために、しばしば不等式表現に繋がる。それぞれのモデルは、注意深くキュレートされ、言語的にインフォームドされた語彙を使って、大量の言語やドメイン固有のデータに基づいて訓練される。しかし、そうすることで私たちは全輪に戻ることができ、多言語性の利点を活用できないのです。両端のギャップに対処するために,タスク非依存の知識蒸留を用いて,最小限の依存関係で資産を最大限に活用できる,事前学習したLMをマージするフレームワークであるMergeDistillを提案する。我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。また,教師選択の重要性と,学生モデルのパフォーマンスへの影響を強調した。

関連論文リスト

MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting [69.6938830307759]
MiLorE-SSLは、LoRAモジュールとソフトミキシング・オブ・エキスパート・メカニズムを組み合わせて、効率的な連続多言語トレーニングを行う軽量フレームワークである。 LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。 ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
論文参考訳（メタデータ） (2026-01-28T06:48:52Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining [2.6638517946494535]
単言語事前学習データをよりよく活用するための多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。提案したモデル LDM はまず言語に依存しないデータに基づいて事前訓練され,言語知識は拡散モデルによって分離され,次に下流言語で微調整される。
論文参考訳（メタデータ） (2024-12-19T07:31:40Z)
Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文参考訳（メタデータ） (2024-10-10T11:23:18Z)
Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability [31.025371443719404]
自己翻訳-トレイン(Self-Translate-Train)は、大規模言語モデルがトレーニングデータをターゲット言語に翻訳し、自身の生成されたデータに基づいてモデルを微調整する手法である。自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。
論文参考訳（メタデータ） (2024-06-29T14:40:23Z)
ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文参考訳（メタデータ） (2024-02-23T02:21:24Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Cross-Lingual Text Classification with Multilingual Distillation and Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM) 教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法 2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2022-02-28T09:51:32Z)
Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文参考訳（メタデータ） (2021-06-03T10:18:43Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文参考訳（メタデータ） (2020-09-16T11:37:10Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。