論文の概要: PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching
- arxiv url: http://arxiv.org/abs/2312.05621v1
- Date: Sat, 9 Dec 2023 17:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:49:39.375531
- Title: PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching
- Title(参考訳): PILLOW: プロンプトマッチングによる効率的なインストラクションファインタニングの実現
- Authors: Zhenting Qi, Xiaoyu Tan, Shaojie Shi, Chao Qu, Yinghui Xu, Yuan Qi
- Abstract要約: Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。
PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。
PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
- 参考スコア(独自算出の注目度): 21.835846173630717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction fine-tuning has conventionally been employed to adapt Large
Language Models (LLMs) to a variety of tasks. Nonetheless, this technique often
necessitates substantial computational resources, making it impractical for
deployment by individuals or small-scale entities. Recently, Low-Rank
Adaptation (LoRA) has become a promising alternative, offering high
capabilities on par with full tuning with reduced resource overhead. However,
attaining satisfactory performance through the fine-tuning of LoRA is a
non-trivial challenge. In this paper, we propose PILLOW, which aims to improve
LoRA's performance by a discrimination-based prompting method, leveraging LLMs'
In-Context Learning ability. PILLOW incorporates a matching network that
selects prompts from a user-defined prompt pool, concatenates the selected
prompts with the user instruction as input, and performs inference using the
LoRA-fine-tuned LLMs. Trained with Reinforcement Learning, PILLOW exhibits
commensurate performance on various evaluation metrics compared with typical
instruction fine-tuning methods, utilizing only consumer-grade GPU resources
and exhibiting a large reduction in computational costs.
- Abstract(参考訳): 命令の微調整は、従来、様々なタスクに大規模言語モデル(LLM)を適用するために用いられてきた。
それにもかかわらず、この技術は大量の計算資源を必要とすることが多く、個人や小規模のエンティティによるデプロイには実用的ではない。
最近、LoRA(Lolow-Rank Adaptation)が有望な代替手段となり、リソースオーバーヘッドを削減した完全なチューニングと同等の高機能を提供する。
しかし、LoRAの微調整によって満足なパフォーマンスを達成することは、非常に難しい課題である。
本稿では,LLMのインコンテクスト学習能力を活用し,識別に基づくプロンプト手法によりLoRAの性能向上を図ることを目的としたPILLOWを提案する。
PILLOWは、ユーザ定義のプロンプトプールからプロンプトを選択し、選択したプロンプトを入力としてユーザ命令と結合し、LoRA-fine-tuned LLMを使用して推論を行う。
強化学習(Reinforcement Learning)でトレーニングされたPILLOWは、一般的な命令の微調整手法と比較して、さまざまな評価指標に対してコンメジュレートなパフォーマンスを示し、コンシューマグレードのGPUリソースのみを活用し、計算コストを大幅に削減する。
関連論文リスト
- PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Prompt Optimization via Adversarial In-Context Learning [53.10544913649934]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - A Deep Learning Based Resource Allocator for Communication Systems with
Dynamic User Utility Demands [12.216015676346032]
DLベースのリソースアロケータ(ALCOR)が導入された。
ALCORは、繰り返し最適化アルゴリズムにおいて、ポリシーとしてディープニューラルネットワーク(DNN)を使用している。
このポリシーは、アクティブユーザの間で、制限のないRA(URA) -- ユーザユーティリティの要求を考慮せずに、RA -- を実行し、各時点の合計ユーティリティ(SU)を最大化する。
論文 参考訳(メタデータ) (2023-11-08T11:02:51Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。