論文の概要: Supervisory Prompt Training
- arxiv url: http://arxiv.org/abs/2403.18051v1
- Date: Tue, 26 Mar 2024 19:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:14:58.244904
- Title: Supervisory Prompt Training
- Title(参考訳): Supervisory Prompt Training
- Authors: Jean Ghislain Billa, Min Oh, Liang Du,
- Abstract要約: 我々は,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、LLM(Large Language Models)システムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
- 参考スコア(独自算出の注目度): 2.0431551512846244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The performance of Large Language Models (LLMs) relies heavily on the quality of prompts, which are often manually engineered and task-specific, making them costly and non-scalable. We propose a novel approach, Supervisory Prompt Training (SPT). SPT automates the generation of highly effective prompts using a dual LLM system. In this system, one LLM, the generator, performs a task while the other, the corrector, provides feedback and generates improved prompts. In contrast to earlier techniques, both the generator and corrector collaboratively and continuously improve their prompts over time. We also introduce the concept of \textit{impact scores} to measure the sentence-level effectiveness of the prompts. Our method was tested on four benchmarks, testing the level of hallucinations in LLMs. Notably, we were able to increase the accuracy of GPT-4 on GSM8K from 65.8\% to 94.1\% (28.3\% increase). SPT advances LLMs by refining prompts to enhance performance and reduce hallucinations, offering an efficient and scalable alternative to traditional model fine-tuning.
- Abstract(参考訳): LLM(Large Language Models)の性能はプロンプトの品質に大きく依存している。
本稿では,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、デュアルLLMシステムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
以前の手法とは対照的に、ジェネレータと修正器は協調して、時間とともにプロンプトを継続的に改善する。
また,プロンプトの文レベルの有効性を測定するために,「textit{impact scores」という概念を導入する。
LLMの幻覚レベルを4つのベンチマークで検証した。
特に、GSM8K上のGPT-4の精度を65.8\%から94.1\%(28.3\%)に向上することができた。
SPT は LLM を改良し、性能の向上と幻覚の低減を図り、従来のモデルファインチューニングに代わる効率的でスケーラブルな代替手段を提供する。
関連論文リスト
- Learning from Contrastive Prompts: Automated Optimization and Adaptation [7.455360923031003]
本稿では,高速な最適化と適応を実現するためのLCP(Learning from Contrastive Prompts)フレームワークを提案する。
LCPは、良い例と悪い例のパターンを分析することによって効果的なプロンプトを生成するために、対照的な学習を採用している。
我々のBig-Bench Hardデータセットに対する評価は、LCPが既存の最適化手法よりも76%以上勝っていることを示している。
論文 参考訳(メタデータ) (2024-09-23T16:47:23Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。