論文の概要: QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.10504v1
- Date: Tue, 20 Aug 2024 03:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:24:37.126434
- Title: QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning
- Title(参考訳): QPO:マルチループオフライン強化学習によるクエリ依存型プロンプト最適化
- Authors: Yilun Kong, Hangyu Mao, Qi Zhao, Bin Zhang, Jingqing Ruan, Li Shen, Yongzhe Chang, Xueqian Wang, Rui Zhao, Dacheng Tao,
- Abstract要約: クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
- 参考スコア(独自算出の注目度): 58.767866109043055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering has demonstrated remarkable success in enhancing the performance of large language models (LLMs) across diverse tasks. However, most existing prompt optimization methods only focus on the task-level performance, overlooking the importance of query-preferred prompts, which leads to suboptimal performances. Additionally, these methods rely heavily on frequent interactions with LLMs to obtain feedback for guiding the optimization process, incurring substantial redundant interaction costs. In this paper, we introduce Query-dependent Prompt Optimization (QPO), which leverages multi-loop offline reinforcement learning to iteratively fine-tune a small pretrained language model to generate optimal prompts tailored to the input queries, thus significantly improving the prompting effect on the large target LLM. We derive insights from offline prompting demonstration data, which already exists in large quantities as a by-product of benchmarking diverse prompts on open-sourced tasks, thereby circumventing the expenses of online interactions. Furthermore, we continuously augment the offline dataset with the generated prompts in each loop, as the prompts from the fine-tuned model are supposed to outperform the source prompts in the original dataset. These iterative loops bootstrap the model towards generating optimal prompts. Experiments on various LLM scales and diverse NLP and math tasks demonstrate the efficacy and cost-efficiency of our method in both zero-shot and few-shot scenarios.
- Abstract(参考訳): プロンプトエンジニアリングは、多種多様なタスクにわたる大規模言語モデル(LLM)の性能向上に顕著な成功を収めた。
しかし、既存のプロンプト最適化手法のほとんどはタスクレベルのパフォーマンスにのみ焦点を当てており、クエリが優先するプロンプトの重要性を見落としている。
さらに、これらの手法は、最適化プロセスの指針となるフィードバックを得るために、LLMとの頻繁な相互作用に大きく依存しており、かなりの冗長な相互作用コストが生じる。
本稿では,クエリ依存型プロンプト最適化(QPO,Query-dependent Prompt Optimization)を提案する。これは,複数ループのオフライン強化学習を利用して,小さな事前学習言語モデルを反復的に微調整し,入力クエリに適合した最適なプロンプトを生成することで,大きなターゲットLLMに対するプロンプト効果を大幅に改善する。
我々は、オープンソースのタスクに多様なプロンプトをベンチマークする副産物として、すでに多数存在するオフラインのプロンプトデータから洞察を得て、オンラインインタラクションのコストを回避した。
さらに、最適化されたモデルからのプロンプトが元のデータセットのソースプロンプトを上回っているため、各ループで生成されたプロンプトでオフラインデータセットを継続的に拡張します。
これらの反復ループは、最適なプロンプトを生成するためにモデルをブートストラップする。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットシナリオと少数ショットシナリオの両方において、本手法の有効性とコスト効率を実証している。
関連論文リスト
- MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。