論文の概要: Prompt Optimization with Human Feedback
- arxiv url: http://arxiv.org/abs/2405.17346v1
- Date: Mon, 27 May 2024 16:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:23:58.826793
- Title: Prompt Optimization with Human Feedback
- Title(参考訳): 人間のフィードバックによるプロンプト最適化
- Authors: Xiaoqiang Lin, Zhongxiang Dai, Arun Verma, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low,
- Abstract要約: 人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
- 参考スコア(独自算出の注目度): 69.95991134172282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performances in various tasks. However, the performance of LLMs heavily depends on the input prompt, which has given rise to a number of recent works on prompt optimization. However, previous works often require the availability of a numeric score to assess the quality of every prompt. Unfortunately, when a human user interacts with a black-box LLM, attaining such a score is often infeasible and unreliable. Instead, it is usually significantly easier and more reliable to obtain preference feedback from a human user, i.e., showing the user the responses generated from a pair of prompts and asking the user which one is preferred. Therefore, in this paper, we study the problem of prompt optimization with human feedback (POHF), in which we aim to optimize the prompt for a black-box LLM using only human preference feedback. Drawing inspiration from dueling bandits, we design a theoretically principled strategy to select a pair of prompts to query for preference feedback in every iteration, and hence introduce our algorithm named automated POHF (APOHF). We apply our APOHF algorithm to various tasks, including optimizing user instructions, prompt optimization for text-to-image generative models, and response optimization with human feedback (i.e., further refining the response using a variant of our APOHF). The results demonstrate that our APOHF can efficiently find a good prompt using a small number of preference feedback instances. Our code can be found at \url{https://github.com/xqlin98/APOHF}.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクにおいて顕著な性能を示した。
しかし、LLMの性能は入力のプロンプトに大きく依存しており、このことが近年、プロンプト最適化に関する多くの研究を生み出している。
しかしながら、以前の作品では、各プロンプトの品質を評価するために、数値スコアの可用性が要求されることが多い。
残念なことに、人間がブラックボックスのLSMと対話する場合、そのようなスコアを得るのは不可能であり、信頼できないことが多い。
代わりに、通常、人間のユーザーから好みのフィードバックを得るのは非常に簡単で信頼性が高い、すなわち、ユーザの1対のプロンプトから生成された応答を示し、どちらが好まれるかをユーザに尋ねる。
そこで本研究では,人間の嗜好フィードバックのみを用いて,ブラックボックスLLMのプロンプトを最適化することを目的とした,人間のフィードバックによる迅速な最適化(POHF)の問題について検討する。
デュエルバンディットからインスピレーションを得て、各イテレーションで優先フィードバックをクエリする一対のプロンプトを選択する理論的に原理化された戦略を設計し、従って自動POHF(Automatic POHF)というアルゴリズムを導入する。
我々は,APOHFアルゴリズムをユーザ命令の最適化,テキストから画像への生成モデルの迅速な最適化,フィードバックによる応答最適化など,様々なタスクに適用する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
我々のコードは \url{https://github.com/xqlin98/APOHF} で参照できます。
関連論文リスト
- Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Discrete Prompt Optimization via Constrained Generation for Zero-shot
Re-ranker [0.2580765958706853]
大規模言語モデル (LLM) はゼロショットリランカとして, 優れた結果が得られる。
LLMはプロンプトに大きく依存しており、ゼロショットリランカのプロンプトの影響と最適化はまだ検討されていない。
本稿では,新しい離散的プロンプト最適化手法であるConstrained Prompt Generation(Co-Prompt)を提案する。
論文 参考訳(メタデータ) (2023-05-23T06:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。