論文の概要: Aligned Weight Regularizers for Pruning Pretrained Neural Networks
- arxiv url: http://arxiv.org/abs/2204.01385v2
- Date: Tue, 5 Apr 2022 10:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 02:14:48.686004
- Title: Aligned Weight Regularizers for Pruning Pretrained Neural Networks
- Title(参考訳): プリトレーニングニューラルネットワークのためのアライメント重み調整器
- Authors: James O' Neill and Sourav Dutta and Haytham Assem
- Abstract要約: 標準教師付き学習をゼロショット設定と比較した場合, 等級ベースプルーニングにおいて, 明確な性能差があることが示されている。
本稿では,切断ネットワークと未切断ネットワークのユニット間のアライメントを最大化する2つの重み正規化器を提案する。
- 参考スコア(独自算出の注目度): 6.000551438232907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While various avenues of research have been explored for iterative pruning,
little is known what effect pruning has on zero-shot test performance and its
potential implications on the choice of pruning criteria. This pruning setup is
particularly important for cross-lingual models that implicitly learn alignment
between language representations during pretraining, which if distorted via
pruning, not only leads to poorer performance on language data used for
retraining but also on zero-shot languages that are evaluated.
In this work, we show that there is a clear performance discrepancy in
magnitude-based pruning when comparing standard supervised learning to the
zero-shot setting. From this finding, we propose two weight regularizers that
aim to maximize the alignment between units of pruned and unpruned networks to
mitigate alignment distortion in pruned cross-lingual models and perform well
for both non zero-shot and zero-shot settings.
We provide experimental results on cross-lingual tasks for the zero-shot
setting using XLM-RoBERTa$_{\mathrm{Base}}$, where we also find that pruning
has varying degrees of representational degradation depending on the language
corresponding to the zero-shot test set. This is also the first study that
focuses on cross-lingual language model compression.
- Abstract(参考訳): 反復的刈り取りのための様々な研究方法が検討されているが、刈り取りがゼロショットテスト性能にどのような影響を及ぼすか、そして刈り取り基準の選択にどのような影響があるかはほとんど知られていない。
このプルーニング設定は、プリトレーニング中に言語表現間のアライメントを暗黙的に学習するクロスリンガルモデルにとって特に重要であり、プルーニングによって歪んだ場合、再トレーニングに使用される言語データのパフォーマンスが低下するだけでなく、評価されるゼロショット言語も低下する。
本研究では,標準教師付き学習とゼロショット設定との比較において,等級ベースプルーニングにおける性能差が明らかであることを示す。
そこで本研究では,prunedクロスリンガルモデルのアライメント歪みを軽減するため,prunedネットワークとunprunedネットワークのアライメントを最大化することを目的とした2つの重み調整器を提案する。
我々はXLM-RoBERTa$_{\mathrm{Base}}$を用いてゼロショット設定のための言語間タスクの実験結果を提供する。
これは言語間モデル圧縮に焦点を当てた最初の研究でもある。
関連論文リスト
- Language-Independent Representations Improve Zero-Shot Summarization [18.46817967804773]
下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
論文 参考訳(メタデータ) (2024-04-08T17:56:43Z) - Anti-LM Decoding for Zero-shot In-context Machine Translation [59.26037416204157]
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
論文 参考訳(メタデータ) (2023-11-14T17:09:43Z) - Narrowing the Gap between Zero- and Few-shot Machine Translation by
Matching Styles [53.92189950211852]
大規模言語モデルは、文脈内学習を用いたゼロショットと少数ショットの例を用いて、機械翻訳に一般化する能力を示した。
本稿では,このギャップに寄与する要因について検討し,対象コーパスの書字スタイルを一致させることで,このギャップをほとんど(約70%)閉鎖できることを示す。
論文 参考訳(メタデータ) (2023-11-04T03:18:45Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - On the Relation between Syntactic Divergence and Zero-Shot Performance [22.195133438732633]
我々は、英語から多種多様な言語にパースするUniversal Dependencies (UD) を移譲し、2つの実験を行う。
我々は、英語のソースエッジが翻訳で保存される範囲に基づいてゼロショット性能を解析する。
両実験の結果から,言語間安定性とゼロショット解析性能の強い関係が示唆された。
論文 参考訳(メタデータ) (2021-10-09T21:09:21Z) - Rethinking Zero-shot Neural Machine Translation: From a Perspective of
Latent Variables [28.101782382170306]
従来の訓練対象にピボット言語に基づく自動エンコーダ目標を導入し,ゼロショット方向の翻訳精度を向上させる。
提案手法は, 突発的相関を効果的に排除し, 顕著な性能で最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-10T07:18:53Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。