Fugu-MT 論文翻訳(概要): Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications

論文の概要: Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications

arxiv url: http://arxiv.org/abs/2310.00867v3
Date: Fri, 16 Feb 2024 18:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 20:19:02.259970
Title: Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications
Title（参考訳）: 圧縮llmは知識を忘れるか? 実践的意義のある実験研究
Authors: Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang
Abstract要約: 大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。 Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
参考スコア（独自算出の注目度）: 63.29358103217275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compressing Large Language Models (LLMs) often leads to reduced performance, especially for knowledge-intensive tasks. In this work, we dive into how compression damages LLMs' inherent knowledge and the possible remedies. We start by proposing two conjectures on the nature of the damage: one is certain knowledge being forgotten (or erased) after LLM compression, hence necessitating the compressed model to (re)learn from data with additional parameters; the other presumes that knowledge is internally displaced and hence one requires merely "inference re-direction" with input-side augmentation such as prompting, to recover the knowledge-related performance. Extensive experiments are then designed to (in)validate the two conjectures. We observe the promise of prompting in comparison to model tuning; we further unlock prompting's potential by introducing a variant called Inference-time Dynamic Prompting (IDP), that can effectively increase prompt diversity without incurring any inference overhead. Our experiments consistently suggest that compared to the classical re-training alternatives such as LoRA, prompting with IDP leads to better or comparable post-compression performance recovery, while saving the extra parameter size by 21x and reducing inference latency by 60%. Our experiments hence strongly endorse the conjecture of "knowledge displaced" over "knowledge forgotten", and shed light on a new efficient mechanism to restore compressed LLM performance. We additionally visualize and analyze the different attention and activation patterns between prompted and re-trained models, demonstrating they achieve performance recovery in two different regimes.
Abstract（参考訳）: 大規模言語モデル(llm)の圧縮は、特に知識集約的なタスクにおいて、パフォーマンスを低下させる。本研究は, LLMの固有知識と治療の可能性に, 圧縮がどう影響するかを考察する。 1つはllm圧縮後に忘れられた(または消去された)知識であり、それゆえ圧縮されたモデルを追加のパラメータでデータから(re)learnに置き換える必要がある。広範な実験は2つの予想を検証するために行われる。推論時間動的プロンプト(idp: inference-time dynamic prompting, 推論時間動的プロンプト, 推論時間動的プロンプト)と呼ばれる変種を導入することで、プロンプトのポテンシャルをさらに解き放つことができる。実験結果から,loraのような古典的再学習法と比較して,ippの促進は圧縮後性能の回復に寄与するが,余分なパラメータサイズを21倍削減し,推論遅延を60%削減できることが示唆された。そこで,本実験では,「知識の忘れ」に対する「知識のずれ」の予測を強く支持し,圧縮LDM性能を回復するための新しい効率的なメカニズムに光を当てた。さらに,刺激モデルと再学習モデル間の注意とアクティベーションパターンの可視化と分析を行い,2つの異なるシステムでのパフォーマンス回復を実証した。

関連論文リスト

EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文参考訳（メタデータ） (2025-07-01T12:42:06Z)
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.447729258258283]
未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文参考訳（メタデータ） (2025-05-29T12:59:30Z)
GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。 GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文参考訳（メタデータ） (2025-02-09T14:11:30Z)
DESIRE: Dynamic Knowledge Consolidation for Rehearsal-Free Continual Learning [23.878495627964146]
連続学習は、人間のような以前に学習された知識を保持する能力をモデルに装備することを目的としている。既存の手法は通常、実験データが事前訓練されたモデルで使用されているという事実によって引き起こされる情報漏洩の問題を見落としている。本稿では,ロラをベースとした新たなリハーサルフリー手法DESIREを提案する。
論文参考訳（メタデータ） (2024-11-28T13:54:01Z)
Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文参考訳（メタデータ） (2024-11-20T17:55:38Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Mixture of Experts Meets Prompt-Based Continual Learning [23.376460019465235]
本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。 NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
論文参考訳（メタデータ） (2024-05-23T02:49:57Z)
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (2023-12-15T18:20:15Z)
The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。 2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。 LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文参考訳（メタデータ） (2023-12-01T22:27:12Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文参考訳（メタデータ） (2020-10-01T17:51:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。