論文の概要: Junk DNA Hypothesis: A Task-Centric Angle of LLM Pre-trained Weights
through Sparsity
- arxiv url: http://arxiv.org/abs/2310.02277v1
- Date: Fri, 29 Sep 2023 22:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-08 10:58:45.328547
- Title: Junk DNA Hypothesis: A Task-Centric Angle of LLM Pre-trained Weights
through Sparsity
- Title(参考訳): ジャンクDNA仮説: 空間を通したLLM事前訓練重量のタスク中心角
- Authors: Lu Yin, Shiwei Liu, Ajay Jaiswal, Souvik Kundu, Zhangyang Wang
- Abstract要約: ジャンクDNA」は、ヒトゲノム内の非コードセグメントと関連付けられてきた。
最近の研究は、これらの機能しないように見えるDNA配列のいくつかが細胞プロセスにおいて重要な役割を担っていることを明らかにしている。
巨大モデルの重量には過剰な冗長性が含まれており、性能を損なうことなく除去できると考えられていた。
- 参考スコア(独自算出の注目度): 71.56345106591789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional notion of "Junk DNA" has long been linked to non-coding
segments within the human genome, constituting roughly 98% of its composition.
However, recent research has unveiled the critical roles some of these
seemingly non-functional DNA sequences play in cellular processes.
Intriguingly, the weights within deep neural networks exhibit a remarkable
similarity to the redundancy observed in human genes. It was believed that
weights in gigantic models contained excessive redundancy, and could be removed
without compromising performance. This paper challenges this conventional
wisdom by presenting a compelling counter-argument. We employ sparsity as a
tool to isolate and quantify the nuanced significance of low-magnitude weights
in pre-trained large language models (LLMs). Our study demonstrates a strong
correlation between these weight magnitudes and the knowledge they encapsulate,
from a downstream task-centric angle. we raise the "Junk DNA Hypothesis" backed
by our in-depth investigation: while small-magnitude weights may appear
"useless" for simple tasks and suitable for pruning, they actually encode
crucial knowledge necessary for solving more difficult downstream tasks.
Removing these seemingly insignificant weights can lead to irreversible
knowledge forgetting and performance damage in difficult tasks. These findings
offer fresh insights into how LLMs encode knowledge in a task-sensitive manner,
pave future research direction in model pruning, and open avenues for
task-aware conditional computation during inference.
- Abstract(参考訳): ジャンクDNA」という伝統的な概念は、ヒトゲノム内の非コードセグメントと関連付けられており、その構成の約98%を構成している。
しかし、最近の研究では、機能しないように見えるDNA配列のいくつかが細胞プロセスで果たす重要な役割が明らかにされている。
興味深いことに、ディープニューラルネットワーク内の重みは人間の遺伝子に見られる冗長性と著しく類似している。
巨大なモデルの重量には過剰な冗長性が含まれており、性能を損なうことなく取り除くことができた。
本稿では, 説得力のある反論を提示することで, 従来の知見に挑戦する。
我々は、事前訓練された大言語モデル(LLM)において、低次重みのニュアンス重みを分離し、定量化するためのツールとして空間性を用いる。
本研究は,下流のタスク中心の角度から,これらの重さの大きさとカプセル化した知識との間に強い相関関係を示す。
我々は、我々の深い調査によって裏付けられた「ジャンクdna仮説」を提起する: 単純なタスクに「役に立たない」ように見えるが、より難しい下流タスクを解決するのに必要な重要な知識を実際にエンコードする。
これらの一見無意味な重みを取り除くことは、困難なタスクにおいて、忘れられない知識とパフォーマンスのダメージをもたらす。
これらの知見は、LLMがいかにしてタスクに敏感な方法で知識をエンコードするか、モデルプルーニングにおける将来の研究方向を舗装し、推論中のタスク認識条件計算のためのオープンな道を提供する。
関連論文リスト
- Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - Understanding Difficulty-based Sample Weighting with a Universal
Difficulty Measure [2.7413469516930578]
多くの重み付け手法は、基本的にトレーニングサンプルの学習困難を利用して重みを計算する。
サンプルの学習困難度は、ノイズレベル、不均衡度、マージン、不確実性を含む複数の要因によって決定される。
本研究では,サンプルの一般化誤差を普遍的難易度尺度として用いることができることを理論的に証明する。
論文 参考訳(メタデータ) (2023-01-12T07:28:32Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Multi-Loss Weighting with Coefficient of Variations [19.37721431024278]
本稿では,変動係数に基づく重み付け手法を提案し,モデルのトレーニング中に観測された特性に基づいて重みを設定する。
提案手法は損失のバランスをとるための不確実性の尺度を組み込んでおり、その結果、他の(学習ベース)最適化を必要とせずに、トレーニング中に損失重みが進化する。
提案手法の有効性は,複数のデータセット上での深度推定とセマンティックセグメンテーションに実証的に示される。
論文 参考訳(メタデータ) (2020-09-03T14:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。