論文の概要: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs
- arxiv url: http://arxiv.org/abs/2310.02277v2
- Date: Fri, 16 Feb 2024 21:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:33:21.607646
- Title: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs
- Title(参考訳): LLMにおける下流作業の「難易度」を不可逆かつ単調に損なう小型プレトレーニングウェイト
- Authors: Lu Yin, Ajay Jaiswal, Shiwei Liu, Souvik Kundu, Zhangyang Wang
- Abstract要約: 大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
- 参考スコア(独自算出の注目度): 71.56345106591789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Junk DNA Hypothesis by adopting a novel task-centric angle for the
pre-trained weights of large language models (LLMs). It has been believed that
weights in LLMs contain significant redundancy, leading to the conception that
a considerable chunk of the parameters can be removed by pruning without
compromising performance. Contrary to this belief, this paper presents a
counter-argument: small-magnitude weights of pre-trained model weights encode
vital knowledge essential for tackling difficult downstream tasks - manifested
as the monotonic relationship between the performance drop of downstream tasks
across the difficulty spectrum, as we prune more pre-trained weights by
magnitude. Moreover, we reveal that these seemingly inconsequential weights can
result in irreparable loss of knowledge and performance degradation in
difficult tasks, even when downstream continual training is allowed.
Interestingly, our evaluations show that the other popular compression, namely
quantization, fails to exhibit similar monotonic effect and does not as
convincingly disentangle this task-difficulty information. To study formally,
we introduce several quantifiable metrics to gauge the downstream task
difficulty: (1) within the same task category, and (2) across different task
categories. Our extensive experiments substantiate the Junk DNA Hypothesis
across a diverse range of model sizes, tasks, datasets, and even pruning
methods. Codes are available at:
https://github.com/VITA-Group/Junk_DNA_Hypothesis.git.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の事前学習重量に対して,タスク中心の新たな角度を取り入れたJunk DNA仮説を提案する。
LLMの重みにはかなりの冗長性があると考えられており、性能を損なうことなくプルーニングすることでパラメータのかなりの部分が除去できるという概念が導かれる。
一方,本論文では, 従来より訓練済みの重みの少ない重みが, 難しい下流タスクに対処する上で不可欠な重要な知識を包含する, 困難領域における下流タスクのパフォーマンス低下と, より訓練済みの重みとのモノトニックな関係を示す。
さらに,これらの不連続な重みは,下流の連続訓練が許される場合でも,困難なタスクにおいて,知識の欠如や性能劣化を招きかねない結果をもたらすことが判明した。
興味深いことに、我々の評価は、他の一般的な圧縮、すなわち量子化は類似した単調効果を示さず、このタスクの難易度情報を説得力なく歪めないことを示している。
本研究では,(1)同一タスクカテゴリ内,(2)異なるタスクカテゴリ間でのダウンストリームタスクの難易度を評価するために,いくつかの定量化指標を導入する。
我々の広範な実験は、Junk DNA仮説を、さまざまなモデルサイズ、タスク、データセット、さらには刈り取り方法にわたって裏付けている。
コードは、https://github.com/VITA-Group/Junk_DNA_Hypothesis.gitで入手できる。
関連論文リスト
- Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - Understanding Difficulty-based Sample Weighting with a Universal
Difficulty Measure [2.7413469516930578]
多くの重み付け手法は、基本的にトレーニングサンプルの学習困難を利用して重みを計算する。
サンプルの学習困難度は、ノイズレベル、不均衡度、マージン、不確実性を含む複数の要因によって決定される。
本研究では,サンプルの一般化誤差を普遍的難易度尺度として用いることができることを理論的に証明する。
論文 参考訳(メタデータ) (2023-01-12T07:28:32Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Multi-Loss Weighting with Coefficient of Variations [19.37721431024278]
本稿では,変動係数に基づく重み付け手法を提案し,モデルのトレーニング中に観測された特性に基づいて重みを設定する。
提案手法は損失のバランスをとるための不確実性の尺度を組み込んでおり、その結果、他の(学習ベース)最適化を必要とせずに、トレーニング中に損失重みが進化する。
提案手法の有効性は,複数のデータセット上での深度推定とセマンティックセグメンテーションに実証的に示される。
論文 参考訳(メタデータ) (2020-09-03T14:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。