論文の概要: Supervisory Prompt Training
- arxiv url: http://arxiv.org/abs/2403.18051v1
- Date: Tue, 26 Mar 2024 19:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:14:58.244904
- Title: Supervisory Prompt Training
- Title(参考訳): Supervisory Prompt Training
- Authors: Jean Ghislain Billa, Min Oh, Liang Du,
- Abstract要約: 我々は,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、LLM(Large Language Models)システムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
- 参考スコア(独自算出の注目度): 2.0431551512846244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The performance of Large Language Models (LLMs) relies heavily on the quality of prompts, which are often manually engineered and task-specific, making them costly and non-scalable. We propose a novel approach, Supervisory Prompt Training (SPT). SPT automates the generation of highly effective prompts using a dual LLM system. In this system, one LLM, the generator, performs a task while the other, the corrector, provides feedback and generates improved prompts. In contrast to earlier techniques, both the generator and corrector collaboratively and continuously improve their prompts over time. We also introduce the concept of \textit{impact scores} to measure the sentence-level effectiveness of the prompts. Our method was tested on four benchmarks, testing the level of hallucinations in LLMs. Notably, we were able to increase the accuracy of GPT-4 on GSM8K from 65.8\% to 94.1\% (28.3\% increase). SPT advances LLMs by refining prompts to enhance performance and reduce hallucinations, offering an efficient and scalable alternative to traditional model fine-tuning.
- Abstract(参考訳): LLM(Large Language Models)の性能はプロンプトの品質に大きく依存している。
本稿では,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、デュアルLLMシステムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
以前の手法とは対照的に、ジェネレータと修正器は協調して、時間とともにプロンプトを継続的に改善する。
また,プロンプトの文レベルの有効性を測定するために,「textit{impact scores」という概念を導入する。
LLMの幻覚レベルを4つのベンチマークで検証した。
特に、GSM8K上のGPT-4の精度を65.8\%から94.1\%(28.3\%)に向上することができた。
SPT は LLM を改良し、性能の向上と幻覚の低減を図り、従来のモデルファインチューニングに代わる効率的でスケーラブルな代替手段を提供する。
関連論文リスト
- Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大規模言語モデル(LLM)のための新しいRAGプロンプト手法を提案する。
重ね合わせプロンプトにより、LLMは入力文書を並列にプロンプトパスで処理でき、無関係と判断された後にパスを破棄する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - One Prompt Word is Enough to Boost Adversarial Robustness for
Pre-trained Vision-Language Models [7.308611036454601]
本研究は、テキストプロンプトの新たな視点から、視覚言語モデル(VLM)の対角的ロバスト性について研究する。
本稿では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
論文 参考訳(メタデータ) (2024-03-04T08:59:32Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - PRewrite: Prompt Rewriting with Reinforcement Learning [24.804583127813313]
より効率的なプロンプトに最適化されていないプロンプトを書き換える自動化手法であるPRewriteを提案する。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
論文 参考訳(メタデータ) (2024-01-16T08:04:50Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。