Fugu-MT 論文翻訳(概要): (Dynamic) Prompting might be all you need to repair Compressed LLMs

論文の概要: (Dynamic) Prompting might be all you need to repair Compressed LLMs

arxiv url: http://arxiv.org/abs/2310.00867v1
Date: Mon, 2 Oct 2023 03:12:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 23:45:08.799395
Title: (Dynamic) Prompting might be all you need to repair Compressed LLMs
Title（参考訳）: 圧縮llmの修復に必要なのは(動的)プロンプトだけかもしれない
Authors: Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang
Abstract要約: 本稿では,資源集約型圧縮後再訓練と即時回復のトレードオフについて検討する。本稿では,一連のプロンプトから自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
参考スコア（独自算出の注目度）: 63.29358103217275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs), while transformative for NLP, come with significant computational demands, underlining the need for efficient, training-free compression. Notably, the reliability of perplexity as a benchmark for compressed model efficacy is in question, as our tests using LLaMA-7B and OPT-6.7b reveal a significant performance drop in several realistic downstream tasks, underscoring the disparity between perplexity as a performance indicator and real-world performance. Investigation into the trade-off between resource-intensive post-compression re-training highlights the prospect of prompt-driven recovery as a lightweight adaption tool. However, existing studies, confined mainly to perplexity evaluations and simple tasks, fail to offer unequivocal confidence in the scalability and generalizability of prompting. We tackle this uncertainty in two key ways. First, we uncover the vulnerability of naive prompts in LLM compression as an over-reliance on a singular prompt per input. In response, we propose inference-time dynamic prompting (IDP), a mechanism that autonomously chooses from a set of curated prompts based on the context of each individual input. Second, we delve into a scientific understanding of why ``prompting might be all you need post-LLM compression". Our findings suggest that compression doesn't irretrievably erase LLM model knowledge but displace it, necessitating a new inference path. IDP effectively redirects this path, enabling the model to tap into its inherent yet displaced knowledge and thereby recover performance. Empirical tests affirm the value of IDP, demonstrating an average performance improvement of 1.24% across nine varied tasks spanning multiple knowledge domains.
Abstract（参考訳）: 大規模言語モデル (LLMs) は NLP に変換されるが、計算処理の要求が大きくなり、効率的でトレーニング不要な圧縮の必要性を浮き彫りにしている。特に, LLaMA-7B と OPT-6.7b を用いた実験では, 性能指標としてのパープレキシティと実世界の性能との相違が強調され, 現実的なダウンストリームタスクにおいて顕著な性能低下が見られた。資源集約的な圧縮後再訓練のトレードオフの調査は、軽量適応ツールとしての即時回復の可能性を強調している。しかし、主にパープレキシティ評価と単純なタスクに焦点を絞った既存の研究は、プロンプトのスケーラビリティと一般化性に対する絶対的な信頼を提供できない。私たちはこの不確実性に2つの重要な方法で取り組みます。まず,入力毎の特異なプロンプトに対する過度な依存として,llm圧縮におけるナイーブプロンプトの脆弱性を明らかにする。そこで本研究では,各入力のコンテキストに基づいて,各プロンプトの集合から自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。第二に、なぜ ``prompting is all you need post-llm compression" があるのかという科学的理解です。以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。 IDPは、このパスを効果的にリダイレクトし、モデル固有の知識をタップすることで、パフォーマンスを回復する。実証テストでは、複数の知識領域にまたがる9つのタスクで平均1.24%のパフォーマンス改善が示された。

関連論文リスト

EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文参考訳（メタデータ） (2025-07-01T12:42:06Z)
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.447729258258283]
未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文参考訳（メタデータ） (2025-05-29T12:59:30Z)
GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。 GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文参考訳（メタデータ） (2025-02-09T14:11:30Z)
DESIRE: Dynamic Knowledge Consolidation for Rehearsal-Free Continual Learning [23.878495627964146]
連続学習は、人間のような以前に学習された知識を保持する能力をモデルに装備することを目的としている。既存の手法は通常、実験データが事前訓練されたモデルで使用されているという事実によって引き起こされる情報漏洩の問題を見落としている。本稿では,ロラをベースとした新たなリハーサルフリー手法DESIREを提案する。
論文参考訳（メタデータ） (2024-11-28T13:54:01Z)
Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文参考訳（メタデータ） (2024-11-20T17:55:38Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Mixture of Experts Meets Prompt-Based Continual Learning [23.376460019465235]
本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。 NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
論文参考訳（メタデータ） (2024-05-23T02:49:57Z)
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (2023-12-15T18:20:15Z)
The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。 2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。 LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文参考訳（メタデータ） (2023-12-01T22:27:12Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文参考訳（メタデータ） (2020-10-01T17:51:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。