Fugu-MT 論文翻訳(概要): From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

論文の概要: From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

arxiv url: http://arxiv.org/abs/2112.07198v1
Date: Tue, 14 Dec 2021 07:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-15 14:43:23.857005
Title: From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression
Title（参考訳）: Dense から Sparse へ: より優れた事前学習型言語モデル圧縮のためのコントラストプラニング
Authors: Runxin Xu, Fuli Luo, Chengyu Wang, Baobao Chang, Jun Huang, Songfang Huang, Fei Huang
Abstract要約: ContrAstive Pruning (CAP) は一般的なフレームワークとして設計されており、構造化プルーニングと非構造化プルーニングの両方と互換性がある。 CAPは、特に非常に高頻度のシナリオにおいて、一貫して大幅な改善をもたらす。
参考スコア（独自算出の注目度）: 32.35855458528584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained Language Models (PLMs) have achieved great success in various Natural Language Processing (NLP) tasks under the pre-training and fine-tuning paradigm. With large quantities of parameters, PLMs are computation-intensive and resource-hungry. Hence, model pruning has been introduced to compress large-scale PLMs. However, most prior approaches only consider task-specific knowledge towards downstream tasks, but ignore the essential task-agnostic knowledge during pruning, which may cause catastrophic forgetting problem and lead to poor generalization ability. To maintain both task-agnostic and task-specific knowledge in our pruned model, we propose ContrAstive Pruning (CAP) under the paradigm of pre-training and fine-tuning. It is designed as a general framework, compatible with both structured and unstructured pruning. Unified in contrastive learning, CAP enables the pruned model to learn from the pre-trained model for task-agnostic knowledge, and fine-tuned model for task-specific knowledge. Besides, to better retain the performance of the pruned model, the snapshots (i.e., the intermediate models at each pruning iteration) also serve as effective supervisions for pruning. Our extensive experiments show that adopting CAP consistently yields significant improvements, especially in extremely high sparsity scenarios. With only 3% model parameters reserved (i.e., 97% sparsity), CAP successfully achieves 99.2% and 96.3% of the original BERT performance in QQP and MNLI tasks. In addition, our probing experiments demonstrate that the model pruned by CAP tends to achieve better generalization ability.
Abstract（参考訳）: 事前学習された言語モデル(PLM)は、事前学習および微調整のパラダイムの下で様々な自然言語処理(NLP)タスクで大きな成功を収めた。大量のパラメータで PLM は計算集約的で資源不足である。したがって、大規模plmを圧縮するためにモデルプルーニングが導入された。しかしながら、ほとんどの以前のアプローチでは、下流タスクに対するタスク固有の知識のみを考慮しているが、プルーニング中に必要不可欠なタスクに依存しない知識を無視する。そこで本研究では,事前学習と微調整のパラダイムの下で,タスク非依存とタスク特化の両方の知識を維持するために,コントラアッティブ・プルーニング(CAP)を提案する。汎用フレームワークとして設計され、構造化と非構造化の両方のプラニングと互換性がある。対照的な学習で統一されたCAPは、訓練済みのタスク非依存の知識モデルから学習し、タスク固有の知識のための微調整されたモデルから学習することを可能にする。さらに、プルーニングされたモデルの性能をよりよく維持するために、スナップショット(すなわち、各プルーニングイテレーションにおける中間モデル)もプルーニングの効果的な監督役である。広範な実験の結果,capの採用は,特に極めて高いスパーシティシナリオにおいて,一貫して大幅な改善をもたらすことが分かりました。わずか3%のモデルパラメータ(すなわち97%の間隔)で、CAPはQQPおよびMNLIタスクにおける元のBERTパフォーマンスの99.2%と96.3%を達成することに成功した。さらに, 探索実験により, capで刈り取られたモデルの方が一般化能力が向上する可能性が示唆された。

関連論文リスト

Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models [17.483183039447564]
本稿では,タスク関連パラメータを選択的に保持し,推論オーバーヘッドを低減する訓練不要プルーニング手法であるSparse Expert Activation Pruning (SEAP)を紹介する。実験の結果,SEAPは競争精度を維持しながら計算オーバーヘッドを著しく低減することがわかった。
論文参考訳（メタデータ） (2025-03-10T17:59:03Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文参考訳（メタデータ） (2024-02-19T11:02:05Z)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。 PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文参考訳（メタデータ） (2024-01-05T09:58:09Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
Making Pre-trained Language Models both Task-solvers and Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文参考訳（メタデータ） (2023-07-21T02:51:41Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。 BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文参考訳（メタデータ） (2020-04-08T07:09:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。