論文の概要: PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching
- arxiv url: http://arxiv.org/abs/2312.05621v2
- Date: Mon, 07 Oct 2024 03:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:01.726127
- Title: PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching
- Title(参考訳): PILLOW: プロンプトマッチングによる効率的なインストラクションファインタニングの実現
- Authors: Zhenting Qi, Xiaoyu Tan, Shaojie Shi, Chao Qu, Yinghui Xu, Yuan Qi,
- Abstract要約: Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。
PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。
PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
- 参考スコア(独自算出の注目度): 20.607323649079845
- License:
- Abstract: Instruction fine-tuning has conventionally been employed to adapt Large Language Models (LLMs) to a variety of tasks. Nonetheless, this technique often necessitates substantial computational resources, making it impractical for deployment by individuals or small-scale entities. Recently, Low-Rank Adaptation (LoRA) has become a promising alternative, offering high capabilities on par with full tuning with reduced resource overhead. However, attaining satisfactory performance through the fine-tuning of LoRA is a non-trivial challenge. In this paper, we propose PILLOW, which aims to improve LoRA's performance by a discrimination-based prompting method, leveraging LLMs' In-Context Learning ability. PILLOW incorporates a matching network that selects prompts from a user-defined prompt pool, concatenates the selected prompts with the user instruction as input, and performs inference using the LoRA-fine-tuned LLMs. Trained with Reinforcement Learning, PILLOW exhibits commensurate performance on various evaluation metrics compared with typical instruction fine-tuning methods, utilizing only consumer-grade GPU resources and exhibiting a large reduction in computational costs.
- Abstract(参考訳): 命令の微調整は、従来、様々なタスクに大規模言語モデル(LLM)を適用するために用いられてきた。
それにもかかわらず、この技術は大量の計算資源を必要とすることが多く、個人や小規模のエンティティによるデプロイには実用的ではない。
最近、LoRA(Lolow-Rank Adaptation)が有望な代替手段となり、リソースオーバーヘッドを削減した完全なチューニングと同等の高機能を提供する。
しかし、LoRAの微調整によって満足なパフォーマンスを達成することは、非常に難しい課題である。
本稿では,LLMのインコンテクスト学習能力を活用し,識別に基づくプロンプト手法によりLoRAの性能向上を図ることを目的としたPILLOWを提案する。
PILLOWは、ユーザ定義のプロンプトプールからプロンプトを選択し、選択したプロンプトを入力としてユーザ命令と結合し、LoRA-fine-tuned LLMを使用して推論を行う。
強化学習(Reinforcement Learning)でトレーニングされたPILLOWは、一般的な命令の微調整手法と比較して、さまざまな評価指標に対してコンメジュレートなパフォーマンスを示し、コンシューマグレードのGPUリソースのみを活用し、計算コストを大幅に削減する。
関連論文リスト
- OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)はこれらの問題を緩和するための有望な方法として登場した。
OLoRAはLLMトレーニングの収束を著しく加速する。
OLoRAは、様々な言語モデリングタスクで標準のLoRAよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-06-03T20:37:27Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models [7.926974917872204]
LoRA-SPはランダム化半選択パラメータ凍結を利用した新しい手法である。
LoRA-SPは、モデル性能を損なうことなく、計算とメモリの要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T06:50:10Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - A Deep Learning Based Resource Allocator for Communication Systems with
Dynamic User Utility Demands [12.216015676346032]
DLベースのリソースアロケータ(ALCOR)が導入された。
ALCORは、繰り返し最適化アルゴリズムにおいて、ポリシーとしてディープニューラルネットワーク(DNN)を使用している。
このポリシーは、アクティブユーザの間で、制限のないRA(URA) -- ユーザユーティリティの要求を考慮せずに、RA -- を実行し、各時点の合計ユーティリティ(SU)を最大化する。
論文 参考訳(メタデータ) (2023-11-08T11:02:51Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。