論文の概要: (Dynamic) Prompting might be all you need to repair Compressed LLMs
- arxiv url: http://arxiv.org/abs/2310.00867v2
- Date: Sat, 14 Oct 2023 05:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 22:45:46.336485
- Title: (Dynamic) Prompting might be all you need to repair Compressed LLMs
- Title(参考訳): 圧縮llmの修復に必要なのは(動的)プロンプトだけかもしれない
- Authors: Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang
Wang
- Abstract要約: 本稿では,資源集約型圧縮後再訓練と即時回復のトレードオフについて検討する。
本稿では,一連のプロンプトから自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。
以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
- 参考スコア(独自算出の注目度): 63.29358103217275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), while transformative for NLP, come with
significant computational demands, underlining the need for efficient,
training-free compression. Notably, despite the marked improvement in
training-free compression for the largest of LLMs, our tests using LLaMA-7B and
OPT-6.7b highlight a significant performance drop in several realistic
downstream tasks. Investigation into the trade-off between resource-intensive
post-compression re-training highlights the prospect of prompt-driven recovery
as a lightweight adaption tool. However, existing studies, confined mainly to
perplexity evaluations and simple tasks, fail to offer unequivocal confidence
in the scalability and generalizability of prompting. We tackle this
uncertainty in two key ways. First, we uncover the vulnerability of naive
prompts in LLM compression as an over-reliance on a singular prompt per input.
In response, we propose inference-time dynamic prompting (IDP), a mechanism
that autonomously chooses from a set of curated prompts based on the context of
each individual input. Second, we delve into a scientific understanding of why
"prompting might be all you need post-LLM compression." Our findings suggest
that compression does not irretrievably erase LLM model knowledge but displace
it, necessitating a new inference path. IDP effectively redirects this path,
enabling the model to tap into its inherent yet displaced knowledge and thereby
recover performance. Empirical tests affirm the value of IDP, demonstrating an
average performance improvement of 1.24% across nine varied tasks spanning
multiple knowledge domains.
- Abstract(参考訳): 大規模言語モデル (LLMs) は NLP に変換されるが、計算処理の要求が大きくなり、効率的でトレーニング不要な圧縮の必要性を浮き彫りにしている。
llms最大値のトレーニングフリー圧縮が著しく改善されたにもかかわらず、llama-7bとopt-6.7bを使ったテストでは、いくつかの現実的なダウンストリームタスクで大幅なパフォーマンス低下が見られた。
資源集約的な圧縮後再訓練のトレードオフの調査は、軽量適応ツールとしての即時回復の可能性を強調している。
しかし、主にパープレキシティ評価と単純なタスクに焦点を絞った既存の研究は、プロンプトのスケーラビリティと一般化性に対する絶対的な信頼を提供できない。
私たちはこの不確実性に2つの重要な方法で取り組みます。
まず,入力毎の特異なプロンプトに対する過度な依存として,llm圧縮におけるナイーブプロンプトの脆弱性を明らかにする。
そこで本研究では,各入力のコンテキストに基づいて,各プロンプトの集合から自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。
第2に、なぜ「LLM後の圧縮が全てであるかもしれない」のかという科学的理解を掘り下げる。
以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
IDPは、このパスを効果的にリダイレクトし、モデル固有の知識をタップすることで、パフォーマンスを回復する。
実証テストでは、複数の知識領域にまたがる9つのタスクで平均1.24%のパフォーマンス改善が示された。
関連論文リスト
- Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - IB-DRR: Incremental Learning with Information-Back Discrete
Representation Replay [4.8666876477091865]
インクリメンタルラーニングは、機械学習モデルが新しいクラスから新しい知識を継続的に取得できるようにすることを目的としている。
以前に見たクラスのトレーニングサンプルのサブセットをメモリに保存し、新しいトレーニングフェーズ中に再生することは、この目標を達成するために効率的で効果的な方法であることが証明されています。
しかし、モデルパフォーマンスと各クラスに保存するサンプル数とのトレードオフを見つけることは、リプレイベースの漸進学習では依然として未解決の問題である。
論文 参考訳(メタデータ) (2021-04-21T15:32:11Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。