論文の概要: PACE: Improving Prompt with Actor-Critic Editing for Large Language Model
- arxiv url: http://arxiv.org/abs/2308.10088v2
- Date: Thu, 16 May 2024 13:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:34:02.896979
- Title: PACE: Improving Prompt with Actor-Critic Editing for Large Language Model
- Title(参考訳): PACE:大規模言語モデルのためのアクタクリティカル編集によるプロンプトの改善
- Authors: Yihong Dong, Kangcheng Luo, Xue Jiang, Zhi Jin, Ge Li,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のためのPACE(Prompt with Actor-Critic Editing)を提案する。
PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。
実験の結果,PACEは中・低品質な人書きプロンプトの相対性能を最大98%向上させることがわかった。
- 参考スコア(独自算出の注目度): 33.446722733885395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have showcased remarkable potential across various tasks by conditioning on prompts. However, the quality of different human-written prompts leads to substantial discrepancies in LLMs' performance, and improving prompts usually necessitates considerable human effort and expertise. To this end, this paper proposes Prompt with Actor-Critic Editing (PACE) for LLMs to enable automatic prompt editing. Drawing inspiration from the actor-critic algorithm in reinforcement learning, PACE leverages LLMs as the dual roles of actors and critics, conceptualizing prompt as a type of policy. PACE refines prompt, taking into account the feedback from both actors performing prompt and critics criticizing response. This process helps LLMs better align prompt to a specific task, thanks to real responses and thinking from LLMs. We conduct extensive experiments on 24 instruction induction tasks and 21 big-bench tasks. Experimental results indicate that PACE elevates the relative performance of medium/low-quality human-written prompts by up to 98\%, which has comparable performance to high-quality human-written prompts. Moreover, PACE also exhibits notable efficacy for prompt generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プロンプトを条件付けすることで、様々なタスクにおいて顕著なポテンシャルを示した。
しかし、異なる人書きのプロンプトの品質は、LLMのパフォーマンスにかなりの違いをもたらし、通常、プロンプトを改善するにはかなりの人的努力と専門知識が必要である。
そこで本研究では,自動プロンプト編集を実現するために,PLMのためのPACE(Prompt with Actor-Critic Editing)を提案する。
PACEは、強化学習におけるアクター批判アルゴリズムからインスピレーションを得て、LSMをアクターと批評家の二重の役割として活用し、プロンプトを政策の一種として概念化している。
PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。
このプロセスは、LLMの実際の応答と思考のおかげで、特定のタスクへのプロンプトの調整に役立ちます。
我々は,24の指導指導タスクと21のビッグベンチタスクについて広範な実験を行った。
実験の結果,PACEは中級・低級の人書きプロンプトの相対的な性能を最大98%向上し,高品質の人書きプロンプトと同等の性能を示した。
さらに、PACEは、即時発生に対する顕著な効果を示す。
関連論文リスト
- Are You Human? An Adversarial Benchmark to Expose LLMs [2.6528263069045126]
LLM(Large Language Models)は、会話中に人間を偽装する警告機能を実証している。
LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
論文 参考訳(メタデータ) (2024-10-12T15:33:50Z) - What You Say = What You Want? Teaching Humans to Articulate Requirements for LLMs [26.398086645901742]
本稿では,要求指向型プロンプトエンジニアリング(ROPE)について紹介する。
30名の初級者を対象にした研究では,要求重視の訓練が初級者の性能を2倍に向上させ,従来のプロンプトエンジニアリングトレーニングと即時最適化を著しく上回った。
我々の研究は、人間とLLMの協調的なプロンプトにおいて、より効果的なタスクデリゲーションの道を開く。
論文 参考訳(メタデータ) (2024-09-13T12:34:14Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Prompt Valuation Based on Shapley Values [5.072508764734943]
大きな言語モデル(LLM)は、単に自然言語のプロンプトを提供することで、追加のトレーニングなしで新しいタスクを最適化する。
本稿では、Shapley値を用いてプロンプトの寄与を正確に定量化する。
本稿では,各プロンプトの寄与を効果的に識別し,定量化するため,シャープリー値を用いたプロンプトの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T03:37:11Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。