論文の概要: PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine
- arxiv url: http://arxiv.org/abs/2308.12033v1
- Date: Wed, 23 Aug 2023 09:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:47:35.533190
- Title: PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine
- Title(参考訳): フィードバック-リフレクション-refineによるプロンプトアンサンブル学習
- Authors: Chenrui Zhang, Lin Liu, Jinpeng Wang, Chuyuan Wang, Xiao Sun, Hongyu
Wang, Mingchen Cai
- Abstract要約: 提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
- 参考スコア(独自算出の注目度): 24.888093229577965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an effective tool for eliciting the power of Large Language Models (LLMs),
prompting has recently demonstrated unprecedented abilities across a variety of
complex tasks. To further improve the performance, prompt ensemble has
attracted substantial interest for tackling the hallucination and instability
of LLMs. However, existing methods usually adopt a two-stage paradigm, which
requires a pre-prepared set of prompts with substantial manual effort, and is
unable to perform directed optimization for different weak learners. In this
paper, we propose a simple, universal, and automatic method named PREFER (Pompt
Ensemble learning via Feedback-Reflect-Refine) to address the stated
limitations. Specifically, given the fact that weak learners are supposed to
focus on hard examples during boosting, PREFER builds a feedback mechanism for
reflecting on the inadequacies of existing weak learners. Based on this, the
LLM is required to automatically synthesize new prompts for iterative
refinement. Moreover, to enhance stability of the prompt effect evaluation, we
propose a novel prompt bagging method involving forward and backward thinking,
which is superior to majority voting and is beneficial for both feedback and
weight calculation in boosting. Extensive experiments demonstrate that our
PREFER achieves state-of-the-art performance in multiple types of tasks by a
significant margin. We have made our code publicly available.
- Abstract(参考訳): 大規模言語モデル(llm)のパワーを引き出す効果的なツールとして、プロンプトは、最近様々な複雑なタスクで前例のない能力を実証した。
さらなる性能向上のために、プロンプトアンサンブルはLLMの幻覚と不安定性に取り組むことにかなりの関心を集めている。
しかし、既存の手法は通常2段階のパラダイムを採用しており、手作業で準備済みのプロンプトセットが必要であり、異なる弱い学習者に対して直接最適化を行うことができない。
本稿では,提案する制限に対処するために,preceer(pompt ensemble learning via feedback-reflect-refine)という,単純で普遍的で自動的な手法を提案する。
具体的には、弱い学習者が強化中に難しい例に注目することを考えると、Preferは既存の弱い学習者の不正確さを反映するフィードバックメカニズムを構築している。
これに基づいて、LCMは反復精製のための新しいプロンプトを自動で合成する必要がある。
さらに, 即効性評価の安定性を高めるために, 多数決よりも優れ, ブースティングにおけるフィードバックと重み計算の両面で有益である, 前方・後方思考を含む新しいプロンプトバッグ手法を提案する。
広範な実験により,我々は複数のタスクにおいて最先端のパフォーマンスをかなりのマージンで達成することを実証した。
私たちはコードを公開しました。
関連論文リスト
- Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。
本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。
そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文 参考訳(メタデータ) (2024-02-04T10:52:43Z) - PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching [21.835846173630717]
Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。
PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。
PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
論文 参考訳(メタデータ) (2023-12-09T17:38:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - AutoHint: Automatic Prompt Optimization with Hint Generation [11.737818328656735]
本稿では,大規模言語モデル(LLM)の自動プロンプトエンジニアリングと最適化のための新しいフレームワークであるAutoHintを提案する。
本稿では,インテキスト学習とゼロショット学習の両方の利点を継承する枠組みを提案する。
エンリッチメントをヒントと呼び、ラベル付きデータからヒントを自動的に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:49:27Z) - Streaming LifeLong Learning With Any-Time Inference [36.3326483579511]
本稿では,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象に到達する,新たな生涯学習手法を提案する。
また,スナップショット自己蒸留方式の暗黙正則化器を提案する。
我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。
論文 参考訳(メタデータ) (2023-01-27T18:09:19Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。