論文の概要: PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine
- arxiv url: http://arxiv.org/abs/2308.12033v1
- Date: Wed, 23 Aug 2023 09:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:47:35.533190
- Title: PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine
- Title(参考訳): フィードバック-リフレクション-refineによるプロンプトアンサンブル学習
- Authors: Chenrui Zhang, Lin Liu, Jinpeng Wang, Chuyuan Wang, Xiao Sun, Hongyu
Wang, Mingchen Cai
- Abstract要約: 提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
- 参考スコア(独自算出の注目度): 24.888093229577965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an effective tool for eliciting the power of Large Language Models (LLMs),
prompting has recently demonstrated unprecedented abilities across a variety of
complex tasks. To further improve the performance, prompt ensemble has
attracted substantial interest for tackling the hallucination and instability
of LLMs. However, existing methods usually adopt a two-stage paradigm, which
requires a pre-prepared set of prompts with substantial manual effort, and is
unable to perform directed optimization for different weak learners. In this
paper, we propose a simple, universal, and automatic method named PREFER (Pompt
Ensemble learning via Feedback-Reflect-Refine) to address the stated
limitations. Specifically, given the fact that weak learners are supposed to
focus on hard examples during boosting, PREFER builds a feedback mechanism for
reflecting on the inadequacies of existing weak learners. Based on this, the
LLM is required to automatically synthesize new prompts for iterative
refinement. Moreover, to enhance stability of the prompt effect evaluation, we
propose a novel prompt bagging method involving forward and backward thinking,
which is superior to majority voting and is beneficial for both feedback and
weight calculation in boosting. Extensive experiments demonstrate that our
PREFER achieves state-of-the-art performance in multiple types of tasks by a
significant margin. We have made our code publicly available.
- Abstract(参考訳): 大規模言語モデル(llm)のパワーを引き出す効果的なツールとして、プロンプトは、最近様々な複雑なタスクで前例のない能力を実証した。
さらなる性能向上のために、プロンプトアンサンブルはLLMの幻覚と不安定性に取り組むことにかなりの関心を集めている。
しかし、既存の手法は通常2段階のパラダイムを採用しており、手作業で準備済みのプロンプトセットが必要であり、異なる弱い学習者に対して直接最適化を行うことができない。
本稿では,提案する制限に対処するために,preceer(pompt ensemble learning via feedback-reflect-refine)という,単純で普遍的で自動的な手法を提案する。
具体的には、弱い学習者が強化中に難しい例に注目することを考えると、Preferは既存の弱い学習者の不正確さを反映するフィードバックメカニズムを構築している。
これに基づいて、LCMは反復精製のための新しいプロンプトを自動で合成する必要がある。
さらに, 即効性評価の安定性を高めるために, 多数決よりも優れ, ブースティングにおけるフィードバックと重み計算の両面で有益である, 前方・後方思考を含む新しいプロンプトバッグ手法を提案する。
広範な実験により,我々は複数のタスクにおいて最先端のパフォーマンスをかなりのマージンで達成することを実証した。
私たちはコードを公開しました。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - AutoHint: Automatic Prompt Optimization with Hint Generation [11.737818328656735]
本稿では,大規模言語モデル(LLM)の自動プロンプトエンジニアリングと最適化のための新しいフレームワークであるAutoHintを提案する。
本稿では,インテキスト学習とゼロショット学習の両方の利点を継承する枠組みを提案する。
エンリッチメントをヒントと呼び、ラベル付きデータからヒントを自動的に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:49:27Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。