Fugu-MT 論文翻訳(概要): PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

論文の概要: PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

arxiv url: http://arxiv.org/abs/2402.08702v1
Date: Tue, 13 Feb 2024 16:38:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 18:22:49.266090
Title: PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment
Title（参考訳）: マルチステップタスク(PROMST):人間のフィードバックと優先度調整の統合
Authors: Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan
Abstract要約: マルチステップタスクのための離散的なプロンプト最適化フレームワークを新たに導入する。我々のフレームワークは、潜在的なエラーに関する人間設計のフィードバックルールを組み込んで、改善のための直接提案を自動で提供する。このアプローチは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方を著しく上回っている。
参考スコア（独自算出の注目度）: 21.256456167260176
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework that incorporates human-designed feedback rules about potential errors to automatically offer direct suggestions for improvement. Our framework is stylized as a genetic algorithm in which an LLM generates new candidate prompts from a parent prompt and its associated feedback; we use a learned heuristic function that predicts prompt performance to efficiently sample from these candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across eight representative multi-step tasks (an average 27.7% and 28.2% improvement to current best methods on GPT-3.5 and GPT-4, respectively). We further show that the score function for tasks can be modified to better align with individual preferences. We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.
Abstract（参考訳）: Prompt最適化は、与えられたタスクに対して、大きな言語モデル(LLM)の最良のプロンプトを見つけることを目的としている。 LLMはシングルステップタスクのプロンプト候補の発見と改善に成功している。しかし, エージェントの現実的なタスクは多段階であり, 1) プロンプト内容がより広範かつ複雑になり, LLM がエラー解析を困難にすること,(2) 個別のステップの影響を評価することが困難であること,(3) 異なる人がタスク実行に関して様々な好みを持っていること,など,新たな課題がもたらされる。人間はプロンプトの最適化に苦労するが、LLM出力に関するフィードバックを提供するのに長けており、人間設計による潜在的なエラーに関するフィードバックルールを組み込んだ新しいLCM駆動離散プロンプト最適化フレームワークを導入し、改善のために直接提案する。我々の枠組みは,LLMが親のプロンプトとその関連するフィードバックから新たな候補プロンプトを生成する遺伝的アルゴリズムとして,これらの候補を効率的にサンプリングするために,迅速な性能を予測する学習的ヒューリスティック関数を用いている。このアプローチは、人間工学的なプロンプトと8つの代表的マルチステップタスク(それぞれGPT-3.5とGPT-4の現在のベストメソッドに対する平均27.7%と28.2%の改善)にまたがるいくつかのプロンプト最適化手法の両方を著しく上回っている。さらに、タスクのスコア関数は、個人の好みに合わせて変更可能であることを示す。 LLM駆動型マルチステップタスクの自動プロンプト最適化のベンチマークとして機能すると考えています。 DatasetsとCodesはhttps://github.com/yongchao98/PROMSTで入手できる。 Project Pageはhttps://yongchao98.github.io/MIT-REALM-PROMSTで入手できる。

関連論文リスト

Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
Large Scale Multi-Task Bayesian Optimization with Large Language Models [29.12351845364205]
本稿では,大規模言語モデル(LLM)を活用して,従来の最適化軌道から学習し,改良する手法を提案する。本手法は,データベースクエリ最適化と抗菌ペプチドの設計の2つの異なる領域で評価する。
論文参考訳（メタデータ） (2025-03-11T07:46:19Z)
Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文参考訳（メタデータ） (2025-02-07T17:45:16Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文参考訳（メタデータ） (2024-07-04T18:39:59Z)
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。 LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。 LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文参考訳（メタデータ） (2024-05-30T17:05:45Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。