論文の概要: PACE: Improving Prompt with Actor-Critic Editing for Large Language
Model
- arxiv url: http://arxiv.org/abs/2308.10088v1
- Date: Sat, 19 Aug 2023 18:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:58:28.681447
- Title: PACE: Improving Prompt with Actor-Critic Editing for Large Language
Model
- Title(参考訳): PACE:大規模言語モデルのためのアクタクリティカル編集によるプロンプトの改善
- Authors: Yihong Dong, Kangcheng Luo, Xue Jiang, Zhi Jin, and Ge Li
- Abstract要約: 本稿では,大規模言語モデル(LLM)のためのPACE(Prompt with Actor-Critic Editing)を提案する。
PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。
実験の結果,PACEは中・低品質な人書きプロンプトの相対性能を最大98%向上させることがわかった。
- 参考スコア(独自算出の注目度): 33.446722733885395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have showcased remarkable potential across
various tasks by conditioning on prompts. However, the quality of different
human-written prompts leads to substantial discrepancies in LLMs' performance,
and improving prompts usually necessitates considerable human effort and
expertise. To this end, this paper proposes Prompt with Actor-Critic Editing
(PACE) for LLMs to enable automatic prompt editing. Drawing inspiration from
the actor-critic algorithm in reinforcement learning, PACE leverages LLMs as
the dual roles of actors and critics, conceptualizing prompt as a type of
policy. PACE refines prompt, taking into account the feedback from both actors
performing prompt and critics criticizing response. This process helps LLMs
better align prompt to a specific task, thanks to real responses and thinking
from LLMs. We conduct extensive experiments on 24 instruction induction tasks
and 21 big-bench tasks. Experimental results indicate that PACE elevates the
relative performance of medium/low-quality human-written prompts by up to 98\%,
which has comparable performance to high-quality human-written prompts.
Moreover, PACE also exhibits notable efficacy for prompt generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プロンプトを条件付けすることで、様々なタスクにおいて顕著なポテンシャルを示した。
しかし、異なる人間によって書かれたプロンプトの品質はllmのパフォーマンスにかなりの差をもたらし、プロンプトの改善は通常、かなりの人間の努力と専門知識を必要とする。
そこで本稿では,自動プロンプト編集を実現するために,PLMのためのPACE(Prompt with Actor-Critic Editing)を提案する。
PACEは、強化学習におけるアクター批判アルゴリズムからインスピレーションを得て、LSMをアクターと批評家の二重の役割として活用し、プロンプトを政策の一種として概念化している。
PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。
このプロセスは、LLMの実際の応答と思考のおかげで、特定のタスクへのプロンプトの調整に役立ちます。
我々は24個の命令誘導タスクと21個のビッグベンチタスクに関する広範囲な実験を行う。
実験の結果,中・低品質プロンプトの相対的性能は98\%向上し,高い品質のプロンプトに匹敵する性能を示した。
さらに、PACEは、即時発生に対する顕著な効果を示す。
関連論文リスト
- Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Supervisory Prompt Training [2.0431551512846244]
我々は,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、LLM(Large Language Models)システムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-26T19:08:20Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment [20.0605311279483]
与えられたタスクに対して,大きな言語モデル(LLM)に最適なプロンプトを見つけるための新しいフレームワークを導入する。
我々は、プロンプト候補から効率的にサンプリングするために、プロンプト性能を予測する余分な学習モデルを使用する。
このアプローチは、人間工学的なプロンプトと、11の代表的なマルチステップタスクにまたがる他のプロンプト最適化手法の両方を著しく上回っている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Prompt Valuation Based on Shapley Values [5.072508764734943]
大きな言語モデル(LLM)は、単に自然言語のプロンプトを提供することで、追加のトレーニングなしで新しいタスクを最適化する。
本稿では、Shapley値を用いてプロンプトの寄与を正確に定量化する。
本稿では,各プロンプトの寄与を効果的に識別し,定量化するため,シャープリー値を用いたプロンプトの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T03:37:11Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。