論文の概要: PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human
Feedback and Preference Alignment
- arxiv url: http://arxiv.org/abs/2402.08702v1
- Date: Tue, 13 Feb 2024 16:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:22:49.266090
- Title: PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human
Feedback and Preference Alignment
- Title(参考訳): マルチステップタスク(PROMST):人間のフィードバックと優先度調整の統合
- Authors: Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy,
Chuchu Fan
- Abstract要約: マルチステップタスクのための離散的なプロンプト最適化フレームワークを新たに導入する。
我々のフレームワークは、潜在的なエラーに関する人間設計のフィードバックルールを組み込んで、改善のための直接提案を自動で提供する。
このアプローチは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 21.256456167260176
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Prompt optimization aims to find the best prompt to a large language model
(LLM) for a given task. LLMs have been successfully used to help find and
improve prompt candidates for single-step tasks. However, realistic tasks for
agents are multi-step and introduce new challenges: (1) Prompt content is
likely to be more extensive and complex, making it more difficult for LLMs to
analyze errors, (2) the impact of an individual step is difficult to evaluate,
and (3) different people may have varied preferences about task execution.
While humans struggle to optimize prompts, they are good at providing feedback
about LLM outputs; we therefore introduce a new LLM-driven discrete prompt
optimization framework that incorporates human-designed feedback rules about
potential errors to automatically offer direct suggestions for improvement. Our
framework is stylized as a genetic algorithm in which an LLM generates new
candidate prompts from a parent prompt and its associated feedback; we use a
learned heuristic function that predicts prompt performance to efficiently
sample from these candidates. This approach significantly outperforms both
human-engineered prompts and several other prompt optimization methods across
eight representative multi-step tasks (an average 27.7% and 28.2% improvement
to current best methods on GPT-3.5 and GPT-4, respectively). We further show
that the score function for tasks can be modified to better align with
individual preferences. We believe our work can serve as a benchmark for
automatic prompt optimization for LLM-driven multi-step tasks. Datasets and
Codes are available at https://github.com/yongchao98/PROMST. Project Page is
available at https://yongchao98.github.io/MIT-REALM-PROMST.
- Abstract(参考訳): Prompt最適化は、与えられたタスクに対して、大きな言語モデル(LLM)の最良のプロンプトを見つけることを目的としている。
LLMはシングルステップタスクのプロンプト候補の発見と改善に成功している。
しかし, エージェントの現実的なタスクは多段階であり, 1) プロンプト内容がより広範かつ複雑になり, LLM がエラー解析を困難にすること,(2) 個別のステップの影響を評価することが困難であること,(3) 異なる人がタスク実行に関して様々な好みを持っていること,など,新たな課題がもたらされる。
人間はプロンプトの最適化に苦労するが、LLM出力に関するフィードバックを提供するのに長けており、人間設計による潜在的なエラーに関するフィードバックルールを組み込んだ新しいLCM駆動離散プロンプト最適化フレームワークを導入し、改善のために直接提案する。
我々の枠組みは,LLMが親のプロンプトとその関連するフィードバックから新たな候補プロンプトを生成する遺伝的アルゴリズムとして,これらの候補を効率的にサンプリングするために,迅速な性能を予測する学習的ヒューリスティック関数を用いている。
このアプローチは、人間工学的なプロンプトと8つの代表的マルチステップタスク(それぞれGPT-3.5とGPT-4の現在のベストメソッドに対する平均27.7%と28.2%の改善)にまたがるいくつかのプロンプト最適化手法の両方を著しく上回っている。
さらに、タスクのスコア関数は、個人の好みに合わせて変更可能であることを示す。
LLM駆動型マルチステップタスクの自動プロンプト最適化のベンチマークとして機能すると考えています。
DatasetsとCodesはhttps://github.com/yongchao98/PROMSTで入手できる。
Project Pageはhttps://yongchao98.github.io/MIT-REALM-PROMSTで入手できる。
関連論文リスト
- Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。