論文の概要: Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency
- arxiv url: http://arxiv.org/abs/2204.02601v1
- Date: Wed, 6 Apr 2022 06:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:15:54.060337
- Title: Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency
- Title(参考訳): 多言語事前学習モデルによる構造化プルーニング:設定,アルゴリズム,効率性
- Authors: Yanyang Li, Fuli Luo, Runxin Xu, Songfang Huang, Fei Huang, Liwei Wang
- Abstract要約: 本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
- 参考スコア(独自算出の注目度): 62.0887259003594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured pruning has been extensively studied on monolingual pre-trained
language models and is yet to be fully evaluated on their multilingual
counterparts. This work investigates three aspects of structured pruning on
multilingual pre-trained language models: settings, algorithms, and efficiency.
Experiments on nine downstream tasks show several counter-intuitive phenomena:
for settings, individually pruning for each language does not induce a better
result; for algorithms, the simplest method performs the best; for efficiency,
a fast model does not imply that it is also small. To facilitate the comparison
on all sparsity levels, we present Dynamic Sparsification, a simple approach
that allows training the model once and adapting to different model sizes at
inference. We hope this work fills the gap in the study of structured pruning
on multilingual pre-trained models and sheds light on future research.
- Abstract(参考訳): 構造化プルーニングはモノリンガル事前訓練言語モデルで広く研究されており、その多言語モデルについてはまだ十分に評価されていない。
本研究は,多言語事前学習言語モデルにおける構造的プルーニングの3つの側面,設定,アルゴリズム,効率について検討する。
9つの下流タスクにおける実験は、いくつかの直観に反する現象を示している: 設定において、各言語を個別に刈り取ることは、より良い結果をもたらすことはない; アルゴリズムにとって最も単純な方法が最善を尽くす; 効率のために、速いモデルは、それが小さいことを暗示しない。
すべての疎度レベルの比較を容易にするために、動的スパーシフィケーション(Dynamic Sparsification)という、モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチを提案する。
この研究が、多言語事前学習モデルにおける構造化プルーニング研究のギャップを埋め、将来の研究に光を当てることを願っている。
関連論文リスト
- A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。