論文の概要: PLHF: Prompt Optimization with Few-Shot Human Feedback
- arxiv url: http://arxiv.org/abs/2505.07886v1
- Date: Sun, 11 May 2025 00:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.254874
- Title: PLHF: Prompt Optimization with Few-Shot Human Feedback
- Title(参考訳): PLHF:Few-Shot Human Feedbackによるプロンプト最適化
- Authors: Chun-Pai Yang, Kan Zheng, Shou-De Lin,
- Abstract要約: 本稿では、有名なRLHF技術に触発された数発のプロンプト最適化フレームワークPLHFを提案する。
PLHFは、出力品質を推定するためにメートル法として機能する特定の評価モジュールを使用する。
PLHF は LLM の事前出力グレーティング戦略よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 6.528967243984761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic prompt optimization frameworks are developed to obtain suitable prompts for large language models (LLMs) with respect to desired output quality metrics. Although existing approaches can handle conventional tasks such as fixed-solution question answering, defining the metric becomes complicated when the output quality cannot be easily assessed by comparisons with standard golden samples. Consequently, optimizing the prompts effectively and efficiently without a clear metric becomes a critical challenge. To address the issue, we present PLHF (which stands for "P"rompt "L"earning with "H"uman "F"eedback), a few-shot prompt optimization framework inspired by the well-known RLHF technique. Different from naive strategies, PLHF employs a specific evaluator module acting as the metric to estimate the output quality. PLHF requires only a single round of human feedback to complete the entire prompt optimization process. Empirical results on both public and industrial datasets show that PLHF outperforms prior output grading strategies for LLM prompt optimizations.
- Abstract(参考訳): 所望の出力品質指標に対して,大規模言語モデル(LLM)に適したプロンプトを得るために,自動プロンプト最適化フレームワークを開発した。
既存の手法では、固定解問題応答のような従来のタスクを処理できるが、標準ゴールデンサンプルとの比較によって出力品質を評価できない場合には、メートル法の定義が複雑になる。
したがって、明確なメートル法を使わずに効果的に効率的にプロンプトを最適化することが重要な課題となる。
この問題に対処するため, PLHF ("P"rompt "L"earning with "H"uman "F"eedback) を提案する。
単純戦略と異なり、PLHFは出力品質を推定するためにメートル法として機能する特定の評価モジュールを使用する。
PLHFは、迅速な最適化プロセス全体を完成させるために、たった1ラウンドの人間フィードバックしか必要としない。
PLHF は LLM の事前出力グレーティング戦略よりも高い性能を示した。
関連論文リスト
- HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。
遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。
4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文 参考訳(メタデータ) (2025-02-18T16:46:47Z) - Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。