論文の概要: PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2407.02211v2
- Date: Tue, 15 Oct 2024 22:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:15.487800
- Title: PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning
- Title(参考訳): PromptIntern: 大規模言語モデルファインチューニング時の繰り返しプロンプトの内部化による推論コストの削減
- Authors: Jiaru Zou, Mengyu Zhou, Tao Li, Shi Han, Dongmei Zhang,
- Abstract要約: 本稿では,モデル微調整時の素早い知識を内部化し,効率的な推論とコスト削減を実現するPromptInternを提案する。
我々は、命令テンプレート圧縮、少数ショットのサンプル吸収、進行的な内部化戦略を含む微調整パイプラインを設計する。
NL2Codeタスクへの挑戦に関する総合的な実験により、我々の手法は入力トークンを90%以上削減し、推論を4.2倍加速し、金銭的推論コストを88.3%削減することを示した。
- 参考スコア(独自算出の注目度): 45.847259809950316
- License:
- Abstract: Recent advances in fine-tuning large language models (LLMs) have greatly enhanced their usage in domain-specific tasks. Despite the success, fine-tuning continues to rely on repeated and lengthy prompts, which escalate computational expenses, require more resources, and lead to slower inference. In this paper, we present a novel approach, PromptIntern, which internalizes prompt knowledge during model fine-tuning to achieve efficient inference and save costs. Instead of compressing the prompts for a vanilla model, PromptIntern aims to embed the recurrent prompt directly into the model parameters. We design a fine-tuning pipeline that includes instruction template compression, few-shot example absorption, and a progressive internalization strategy, effectively diminishing the need for intricate prompts during inference. Comprehensive experiments on challenging NL2Code tasks demonstrate that our method reduces input tokens by more than 90%, accelerates inference by 4.2 times, and reduces monetary inference costs by 88.3%.
- Abstract(参考訳): 近年の微調整型大規模言語モデル (LLM) の進歩により, ドメイン固有タスクにおける利用が大幅に向上している。
この成功にもかかわらず、微調整は、計算コストを増大させ、より多くのリソースを必要とし、推論を遅くする反復的かつ長期的なプロンプトに依存し続けている。
本稿では,モデル微調整時の素早い知識を内包し,効率的な推論と省コストを実現する新しい手法であるPromptInternを提案する。
バニラモデルのプロンプトを圧縮する代わりに、PromptInternはリカレントプロンプトを直接モデルパラメータに埋め込むことを目指している。
命令テンプレート圧縮,少数ショット例吸収,進行的内部化戦略を含む微調整パイプラインを設計し,推論中の複雑なプロンプトの必要性を効果的に低減する。
NL2Codeタスクへの挑戦に関する総合的な実験により、我々の手法は入力トークンを90%以上削減し、推論を4.2倍加速し、金銭的推論コストを88.3%削減することを示した。
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - XPrompt: Exploring the Extreme of Prompt Tuning [31.242680485717447]
本稿では,宝くじの仮説の下で,eXtremely small scale (XPrompt) を用いた新しいPromptチューニングモデルを提案する。
XPromptは階層的な構造化プルーニングによって異なるレベルの負のプロンプトトークンを排除し、よりパラメータ効率のよいプロンプトを競合性能で得る。
論文 参考訳(メタデータ) (2022-10-10T06:57:19Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Prompt Injection: Parameterization of Fixed Inputs [15.85463693534699]
Prompt Injection (PI)は、言語モデル(LM)のパラメータにプロンプトを注入する新しい定式化である。
PIは、従来のアプローチよりもFLOPの合計で最大280倍効率がよい。
論文 参考訳(メタデータ) (2022-05-31T08:43:07Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。