論文の概要: Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers
- arxiv url: http://arxiv.org/abs/2402.17564v2
- Date: Wed, 17 Apr 2024 03:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:41:31.854735
- Title: Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers
- Title(参考訳): プロンプトオプティマイザとしての大規模言語モデルの可能性:グラディエントモデルオプティマイザを用いた分析
- Authors: Xinyu Tang, Xiaolei Wang, Wayne Xin Zhao, Siyuan Lu, Yaliang Li, Ji-Rong Wen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
- 参考スコア(独自算出の注目度): 108.72225067368592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic prompt optimization is an important approach to improving the performance of large language models (LLMs). Recent research demonstrates the potential of using LLMs as prompt optimizers, which can generate improved task prompts via iterative refinement. In this paper, we propose a novel perspective to investigate the design of LLM-based prompt optimizers, by drawing an analogy with gradient-based model optimizers. To connect these two approaches, we identify two pivotal factors in model parameter learning: update direction and update method. Focused on the two aspects, we borrow the theoretical framework and learning methods from gradient-based optimization to design improved strategies for LLM-based prompt optimizers. By systematically analyzing a rich set of improvement strategies, we further develop a capable Gradient-inspired LLM-based Prompt Optimizer called GPO. At each step, it first retrieves relevant prompts from the optimization trajectory as the update direction. Then, it utilizes the generation-based refinement strategy to perform the update, while controlling the edit distance through a cosine-based decay strategy. Extensive experiments demonstrate the effectiveness and efficiency of GPO. In particular, GPO brings an additional improvement of up to 56.8% on Big-Bench Hard and 55.3% on MMLU compared to baseline methods.
- Abstract(参考訳): 自動プロンプト最適化は,大規模言語モデル(LLM)の性能向上のための重要なアプローチである。
近年の研究では、LCMをプロンプトオプティマイザとして使用し、反復的な改善によって改善されたタスクプロンプトを生成する可能性を実証している。
本稿では,LLMに基づくプロンプトオプティマイザの設計について,勾配モデルオプティマイザを用いた類似図を描画することで検討する。
これら2つのアプローチを接続するために、モデルパラメータ学習における2つの重要な要素を同定する。
2つの側面に焦点をあてて、勾配に基づく最適化から理論フレームワークと学習手法を借用し、LCMに基づくプロンプト最適化のための改良戦略を設計する。
改良戦略の豊富な集合を体系的に解析することにより, GPO と呼ばれる, LLM をベースとしたプロンプト最適化機能の開発をさらに進める。
各ステップで、まず最適化軌道から関連するプロンプトを更新方向として取得する。
そして、世代ベースの精錬戦略を利用して更新を行い、コサインベースの崩壊戦略を介して編集距離を制御する。
大規模な実験は、GPOの有効性と効率を実証する。
特にGPOは、ベースライン法と比較して、Big-Bench Hardで56.8%、MMLUで55.3%の改善を加えた。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z) - LLaMoCo: Instruction Tuning of Large Language Models for Optimization
Code Generation [26.975412742800614]
我々はLLaMoCoを紹介した。LLaMoCoは、大規模言語モデルをコード・コード方式で最適化問題を解くために設計した最初の命令チューニングフレームワークである。
具体的には、よく記述された問題プロンプトと効果的な最適化コードを含む包括的命令セットを確立する。
LLaMoCoにより微調整された CodeGen (350M) モデルでは, GPT-4 Turbo よりも優れた最適化性能が得られた。
論文 参考訳(メタデータ) (2024-03-02T08:21:59Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Learning to optimize by multi-gradient for multi-objective optimization [0.0]
我々はMOO問題を最適化するための新しい自動学習パラダイムを導入し、ML2O法を提案する。
学習に基づく手法として、ML2Oは現在のステップからの情報を活用することで、地域景観の知識を取得する。
我々の学習は、マルチタスク学習(MTL)ニューラルネットワークのトレーニングにおいて、手作りの競争相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T14:55:54Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - DADO -- Low-Cost Query Strategies for Deep Active Design Optimization [1.6298921134113031]
我々は,多目的設計最適化問題における計算コストを削減するために,自己最適化のための2つの選択戦略を提案する。
我々は流体力学の領域から大規模データセットの戦略を評価し、モデルの性能を決定するために2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2023-07-10T13:01:27Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。