論文の概要: Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models
- arxiv url: http://arxiv.org/abs/2310.13191v2
- Date: Sun, 10 Dec 2023 02:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:22:02.339977
- Title: Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models
- Title(参考訳): ロバスト・プルーニングに向けて:言語モデルのための適応的知識保持プルーニング戦略
- Authors: Jianwei Li, Qi Lei, Wei Cheng, Dongkuan Xu
- Abstract要約: 本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。
他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
- 参考スコア(独自算出の注目度): 35.58379464827462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The pruning objective has recently extended beyond accuracy and sparsity to
robustness in language models. Despite this, existing methods struggle to
enhance robustness against adversarial attacks when continually increasing
model sparsity and require a retraining process. As humans step into the era of
large language models, these issues become increasingly prominent. This paper
proposes that the robustness of language models is proportional to the extent
of pre-trained knowledge they encompass. Accordingly, we introduce a
post-training pruning strategy designed to faithfully replicate the embedding
space and feature space of dense language models, aiming to conserve more
pre-trained knowledge during the pruning process. In this setup, each layer's
reconstruction error not only originates from itself but also includes
cumulative error from preceding layers, followed by an adaptive rectification.
Compared to other state-of-art baselines, our approach demonstrates a superior
balance between accuracy, sparsity, robustness, and pruning cost with BERT on
datasets SST2, IMDB, and AGNews, marking a significant stride towards robust
pruning in language models.
- Abstract(参考訳): pruningの目標は、言語モデルの正確性と頑健性を超えて、最近拡張された。
それにもかかわらず、既存の手法は、モデルの間隔を継続的に増加させ、再訓練プロセスを必要とする場合、敵攻撃に対する堅牢性を高めるのに苦労している。
人間が大きな言語モデルの時代に入ると、これらの問題はますます顕著になる。
本稿では, 言語モデルの頑健性は, 学習済み知識の程度に比例することを示す。
そこで本研究では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現し,pruningプロセスにおける事前学習知識の保存を目的とした,訓練後のpruning戦略を提案する。
このセットアップでは、各レイヤの再構成エラーはそれ自体から発生するだけでなく、前のレイヤからの累積誤差も含む。
他の最先端のベースラインと比較して、我々のアプローチは、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
関連論文リスト
- Making Pre-trained Language Models Better Continual Few-Shot Relation
Extractors [15.417833307088637]
連射関係抽出(CFRE)は,新たな関係を連続的に学習するモデルを必要とする実践的問題である。
主な課題は、悲惨な忘れ物と過度に適合することである。
本稿では,事前学習した言語モデルの暗黙的能力を探るために,素早い学習を利用する。
論文 参考訳(メタデータ) (2024-02-24T04:32:44Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for
Perturbation-Robust Slot Filling [27.602336774468]
既存のスロットフィリングモデルの多くは、トレーニングデータからエンティティとそれに対応するコンテキストの固有のパターンを記憶する傾向がある。
本稿では,摂動-ロバストスロット充填モデルの訓練のための意味認識構造伝達法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:01:00Z) - Adversarial Self-Attention for Language Understanding [89.265747130584]
本稿では,textitAdversarial Self-Attention Mechanism (ASA)を提案する。
ASAはトランスフォーマーの注意を逆向きに再構築し、汚染されたモデル構造からのモデルトレーニングを促進する。
微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりも常に大きなマージンで勝る。
論文 参考訳(メタデータ) (2022-06-25T09:18:10Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。