論文の概要: PRL: Prompts from Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14412v1
- Date: Tue, 20 May 2025 14:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.352137
- Title: PRL: Prompts from Reinforcement Learning
- Title(参考訳): PRL:強化学習の成果
- Authors: Paweł Batorski, Adrian Kosmala, Paul Swoboda,
- Abstract要約: PRL(Prompts from Reinforcement Learning)は,自動プロンプト生成のための新しいRLベースのアプローチである。
従来の方法とは異なり、PRLはトレーニング中に見られなかった新しい数発の例を作成できる。
提案手法は,テキスト分類,単純化,要約など,さまざまなベンチマークにおいて最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.132983458925244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective prompt engineering remains a central challenge in fully harnessing the capabilities of LLMs. While well-designed prompts can dramatically enhance performance, crafting them typically demands expert intuition and a nuanced understanding of the task. Moreover, the most impactful prompts often hinge on subtle semantic cues, ones that may elude human perception but are crucial for guiding LLM behavior. In this paper, we introduce PRL (Prompts from Reinforcement Learning), a novel RL-based approach for automatic prompt generation. Unlike previous methods, PRL can produce novel few-shot examples that were not seen during training. Our approach achieves state-of-the-art performance across a range of benchmarks, including text classification, simplification, and summarization. On the classification task, it surpasses prior methods by 2.58% over APE and 1.00% over EvoPrompt. Additionally, it improves the average ROUGE scores on the summarization task by 4.32 over APE and by 2.12 over EvoPrompt and the SARI score on simplification by 6.93 over APE and by 6.01 over EvoPrompt. Our code is available at https://github.com/Batorskq/prl .
- Abstract(参考訳): 効率的なプロンプトエンジニアリングは、LLMの能力を完全に活用する上で、依然として中心的な課題である。
よく設計されたプロンプトはパフォーマンスを劇的に向上させるが、通常は専門家の直感とタスクの微妙な理解を必要とする。
さらに、最も衝撃的なプロンプトは、人間の知覚を損なう可能性があるが、LLMの行動を導くのに不可欠である、微妙な意味的な手がかりにしばしばヒンジする。
本稿では, PRL(Prompts from Reinforcement Learning)を提案する。
従来の方法とは異なり、PRLはトレーニング中に見られなかった新しい数発の例を作成できる。
提案手法は,テキスト分類,単純化,要約など,さまざまなベンチマークにおいて最先端性能を実現する。
分類タスクでは、APEを2.58%上回り、EvoPromptを1.00%上回る。
さらに、和算タスクの平均ROUGEスコアをAPEで4.32、EvoPromptで2.12、APEで6.93、EvoPromptで6.01改善している。
私たちのコードはhttps://github.com/Batorskq/prl で利用可能です。
関連論文リスト
- Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:27:37Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。
本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Take a Step Back: Evoking Reasoning via Abstraction in Large Language
Models [122.19845578690466]
Step-Back Promptingは、LLMが抽象化を行い、特定の詳細を含むインスタンスから高レベルの概念と第一原則を導出することを可能にする。
推論を導くために概念と原則を用いることで、LLMはソリューションへの正しい推論パスに従うことで、その能力を大幅に向上します。
論文 参考訳(メタデータ) (2023-10-09T19:48:55Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。