論文の概要: Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications
- arxiv url: http://arxiv.org/abs/2310.00867v3
- Date: Fri, 16 Feb 2024 18:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:19:02.259970
- Title: Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications
- Title(参考訳): 圧縮llmは知識を忘れるか?
実践的意義のある実験研究
- Authors: Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang
Wang
- Abstract要約: 大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
- 参考スコア(独自算出の注目度): 63.29358103217275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing Large Language Models (LLMs) often leads to reduced performance,
especially for knowledge-intensive tasks. In this work, we dive into how
compression damages LLMs' inherent knowledge and the possible remedies. We
start by proposing two conjectures on the nature of the damage: one is certain
knowledge being forgotten (or erased) after LLM compression, hence
necessitating the compressed model to (re)learn from data with additional
parameters; the other presumes that knowledge is internally displaced and hence
one requires merely "inference re-direction" with input-side augmentation such
as prompting, to recover the knowledge-related performance. Extensive
experiments are then designed to (in)validate the two conjectures. We observe
the promise of prompting in comparison to model tuning; we further unlock
prompting's potential by introducing a variant called Inference-time Dynamic
Prompting (IDP), that can effectively increase prompt diversity without
incurring any inference overhead. Our experiments consistently suggest that
compared to the classical re-training alternatives such as LoRA, prompting with
IDP leads to better or comparable post-compression performance recovery, while
saving the extra parameter size by 21x and reducing inference latency by 60%.
Our experiments hence strongly endorse the conjecture of "knowledge displaced"
over "knowledge forgotten", and shed light on a new efficient mechanism to
restore compressed LLM performance. We additionally visualize and analyze the
different attention and activation patterns between prompted and re-trained
models, demonstrating they achieve performance recovery in two different
regimes.
- Abstract(参考訳): 大規模言語モデル(llm)の圧縮は、特に知識集約的なタスクにおいて、パフォーマンスを低下させる。
本研究は, LLMの固有知識と治療の可能性に, 圧縮がどう影響するかを考察する。
1つはllm圧縮後に忘れられた(または消去された)知識であり、それゆえ圧縮されたモデルを追加のパラメータでデータから(re)learnに置き換える必要がある。
広範な実験は2つの予想を検証するために行われる。
推論時間動的プロンプト(idp: inference-time dynamic prompting, 推論時間動的プロンプト, 推論時間動的プロンプト)と呼ばれる変種を導入することで、プロンプトのポテンシャルをさらに解き放つことができる。
実験結果から,loraのような古典的再学習法と比較して,ippの促進は圧縮後性能の回復に寄与するが,余分なパラメータサイズを21倍削減し,推論遅延を60%削減できることが示唆された。
そこで,本実験では,「知識の忘れ」に対する「知識のずれ」の予測を強く支持し,圧縮LDM性能を回復するための新しい効率的なメカニズムに光を当てた。
さらに,刺激モデルと再学習モデル間の注意とアクティベーションパターンの可視化と分析を行い,2つの異なるシステムでのパフォーマンス回復を実証した。
関連論文リスト
- Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - R-Tuning: Teaching Large Language Models to Refuse Unknown Questions [68.60002086172133]
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - IB-DRR: Incremental Learning with Information-Back Discrete
Representation Replay [4.8666876477091865]
インクリメンタルラーニングは、機械学習モデルが新しいクラスから新しい知識を継続的に取得できるようにすることを目的としている。
以前に見たクラスのトレーニングサンプルのサブセットをメモリに保存し、新しいトレーニングフェーズ中に再生することは、この目標を達成するために効率的で効果的な方法であることが証明されています。
しかし、モデルパフォーマンスと各クラスに保存するサンプル数とのトレードオフを見つけることは、リプレイベースの漸進学習では依然として未解決の問題である。
論文 参考訳(メタデータ) (2021-04-21T15:32:11Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。