論文の概要: Prompt Optimization with Human Feedback
- arxiv url: http://arxiv.org/abs/2405.17346v1
- Date: Mon, 27 May 2024 16:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:23:58.826793
- Title: Prompt Optimization with Human Feedback
- Title(参考訳): 人間のフィードバックによるプロンプト最適化
- Authors: Xiaoqiang Lin, Zhongxiang Dai, Arun Verma, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low,
- Abstract要約: 人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
- 参考スコア(独自算出の注目度): 69.95991134172282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performances in various tasks. However, the performance of LLMs heavily depends on the input prompt, which has given rise to a number of recent works on prompt optimization. However, previous works often require the availability of a numeric score to assess the quality of every prompt. Unfortunately, when a human user interacts with a black-box LLM, attaining such a score is often infeasible and unreliable. Instead, it is usually significantly easier and more reliable to obtain preference feedback from a human user, i.e., showing the user the responses generated from a pair of prompts and asking the user which one is preferred. Therefore, in this paper, we study the problem of prompt optimization with human feedback (POHF), in which we aim to optimize the prompt for a black-box LLM using only human preference feedback. Drawing inspiration from dueling bandits, we design a theoretically principled strategy to select a pair of prompts to query for preference feedback in every iteration, and hence introduce our algorithm named automated POHF (APOHF). We apply our APOHF algorithm to various tasks, including optimizing user instructions, prompt optimization for text-to-image generative models, and response optimization with human feedback (i.e., further refining the response using a variant of our APOHF). The results demonstrate that our APOHF can efficiently find a good prompt using a small number of preference feedback instances. Our code can be found at \url{https://github.com/xqlin98/APOHF}.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクにおいて顕著な性能を示した。
しかし、LLMの性能は入力のプロンプトに大きく依存しており、このことが近年、プロンプト最適化に関する多くの研究を生み出している。
しかしながら、以前の作品では、各プロンプトの品質を評価するために、数値スコアの可用性が要求されることが多い。
残念なことに、人間がブラックボックスのLSMと対話する場合、そのようなスコアを得るのは不可能であり、信頼できないことが多い。
代わりに、通常、人間のユーザーから好みのフィードバックを得るのは非常に簡単で信頼性が高い、すなわち、ユーザの1対のプロンプトから生成された応答を示し、どちらが好まれるかをユーザに尋ねる。
そこで本研究では,人間の嗜好フィードバックのみを用いて,ブラックボックスLLMのプロンプトを最適化することを目的とした,人間のフィードバックによる迅速な最適化(POHF)の問題について検討する。
デュエルバンディットからインスピレーションを得て、各イテレーションで優先フィードバックをクエリする一対のプロンプトを選択する理論的に原理化された戦略を設計し、従って自動POHF(Automatic POHF)というアルゴリズムを導入する。
我々は,APOHFアルゴリズムをユーザ命令の最適化,テキストから画像への生成モデルの迅速な最適化,フィードバックによる応答最適化など,様々なタスクに適用する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
我々のコードは \url{https://github.com/xqlin98/APOHF} で参照できます。
関連論文リスト
- Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
与えられたタスクに対して,大きな言語モデル(LLM)に最適なプロンプトを見つけるための新しいフレームワークを導入する。
ProMSTには人間設計のフィードバックルールが組み込まれ、改善のための直接提案が自動的に提供される。
また、プロンプト候補から効率的にサンプリングするために、プロンプト性能を予測するための学習モデルも使用しています。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Discrete Prompt Optimization via Constrained Generation for Zero-shot
Re-ranker [0.2580765958706853]
大規模言語モデル (LLM) はゼロショットリランカとして, 優れた結果が得られる。
LLMはプロンプトに大きく依存しており、ゼロショットリランカのプロンプトの影響と最適化はまだ検討されていない。
本稿では,新しい離散的プロンプト最適化手法であるConstrained Prompt Generation(Co-Prompt)を提案する。
論文 参考訳(メタデータ) (2023-05-23T06:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。