論文の概要: (Dynamic) Prompting might be all you need to repair Compressed LLMs
- arxiv url: http://arxiv.org/abs/2310.00867v1
- Date: Mon, 2 Oct 2023 03:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:45:08.799395
- Title: (Dynamic) Prompting might be all you need to repair Compressed LLMs
- Title(参考訳): 圧縮llmの修復に必要なのは(動的)プロンプトだけかもしれない
- Authors: Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang
Wang
- Abstract要約: 本稿では,資源集約型圧縮後再訓練と即時回復のトレードオフについて検討する。
本稿では,一連のプロンプトから自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。
以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
- 参考スコア(独自算出の注目度): 63.29358103217275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), while transformative for NLP, come with
significant computational demands, underlining the need for efficient,
training-free compression. Notably, the reliability of perplexity as a
benchmark for compressed model efficacy is in question, as our tests using
LLaMA-7B and OPT-6.7b reveal a significant performance drop in several
realistic downstream tasks, underscoring the disparity between perplexity as a
performance indicator and real-world performance. Investigation into the
trade-off between resource-intensive post-compression re-training highlights
the prospect of prompt-driven recovery as a lightweight adaption tool. However,
existing studies, confined mainly to perplexity evaluations and simple tasks,
fail to offer unequivocal confidence in the scalability and generalizability of
prompting. We tackle this uncertainty in two key ways. First, we uncover the
vulnerability of naive prompts in LLM compression as an over-reliance on a
singular prompt per input. In response, we propose inference-time dynamic
prompting (IDP), a mechanism that autonomously chooses from a set of curated
prompts based on the context of each individual input. Second, we delve into a
scientific understanding of why ``prompting might be all you need post-LLM
compression". Our findings suggest that compression doesn't irretrievably erase
LLM model knowledge but displace it, necessitating a new inference path. IDP
effectively redirects this path, enabling the model to tap into its inherent
yet displaced knowledge and thereby recover performance. Empirical tests affirm
the value of IDP, demonstrating an average performance improvement of 1.24%
across nine varied tasks spanning multiple knowledge domains.
- Abstract(参考訳): 大規模言語モデル (LLMs) は NLP に変換されるが、計算処理の要求が大きくなり、効率的でトレーニング不要な圧縮の必要性を浮き彫りにしている。
特に, LLaMA-7B と OPT-6.7b を用いた実験では, 性能指標としてのパープレキシティと実世界の性能との相違が強調され, 現実的なダウンストリームタスクにおいて顕著な性能低下が見られた。
資源集約的な圧縮後再訓練のトレードオフの調査は、軽量適応ツールとしての即時回復の可能性を強調している。
しかし、主にパープレキシティ評価と単純なタスクに焦点を絞った既存の研究は、プロンプトのスケーラビリティと一般化性に対する絶対的な信頼を提供できない。
私たちはこの不確実性に2つの重要な方法で取り組みます。
まず,入力毎の特異なプロンプトに対する過度な依存として,llm圧縮におけるナイーブプロンプトの脆弱性を明らかにする。
そこで本研究では,各入力のコンテキストに基づいて,各プロンプトの集合から自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。
第二に、なぜ ``prompting is all you need post-llm compression" があるのかという科学的理解です。
以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
IDPは、このパスを効果的にリダイレクトし、モデル固有の知識をタップすることで、パフォーマンスを回復する。
実証テストでは、複数の知識領域にまたがる9つのタスクで平均1.24%のパフォーマンス改善が示された。
関連論文リスト
- Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Mixture of Experts Meets Prompt-Based Continual Learning [23.376460019465235]
本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。
我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
論文 参考訳(メタデータ) (2024-05-23T02:49:57Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。