論文の概要: GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.14479v1
- Date: Tue, 19 Nov 2024 10:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:14.036516
- Title: GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning
- Title(参考訳): GRL-Prompt:強化学習による知識グラフに基づくプロンプト最適化を目指して
- Authors: Yuze Liu, Tingjie Liu, Tiehua Zhang, Youhua Xia, Jinze Wang, Zhishu Shen, Jiong Jin, Fei Richard Yu,
- Abstract要約: 大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。
GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。
GRL-Promptは最近の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.307785339429863
- License:
- Abstract: Large language models (LLMs) have demonstrated impressive success in a wide range of natural language processing (NLP) tasks due to their extensive general knowledge of the world. Recent works discovered that the performance of LLMs is heavily dependent on the input prompt. However, prompt engineering is usually done manually in a trial-and-error fashion, which can be labor-intensive and challenging in order to find the optimal prompts. To address these problems and unleash the utmost potential of LLMs, we propose a novel LLMs-agnostic framework for prompt optimization, namely GRL-Prompt, which aims to automatically construct optimal prompts via reinforcement learning (RL) in an end-to-end manner. To provide structured action/state representation for optimizing prompts, we construct a knowledge graph (KG) that better encodes the correlation between the user query and candidate in-context examples. Furthermore, a policy network is formulated to generate the optimal action by selecting a set of in-context examples in a rewardable order to construct the prompt. Additionally, the embedding-based reward shaping is utilized to stabilize the RL training process. The experimental results show that GRL-Prompt outperforms recent state-of-the-art methods, achieving an average increase of 0.10 in ROUGE-1, 0.07 in ROUGE-2, 0.07 in ROUGE-L, and 0.05 in BLEU.
- Abstract(参考訳): 大規模言語モデル (LLM) は、多種多様な自然言語処理 (NLP) タスクにおいて、世界に関する広範な一般知識により、目覚ましい成功を収めている。
近年の研究では、LLMの性能が入力プロンプトに大きく依存していることが判明している。
しかしながら、プロンプトエンジニアリングは通常、最適なプロンプトを見つけるために、労働集約的で挑戦的な試行錯誤方式で手動で行われる。
これらの問題に対処し、LLMの最大の可能性を解き放つために、LLMs-Agnostic framework(GRL-Prompt)を提案する。
プロンプトを最適化するための構造化された動作/状態表現を提供するため,ユーザクエリとテキスト中の候補例との相関をよりよくエンコードする知識グラフ(KG)を構築した。
さらに、ポリシーネットワークを定式化し、インコンテキストの例の集合を報奨順序で選択して最適なアクションを生成してプロンプトを構築する。
また、埋め込み型報酬形成を利用してRLトレーニングプロセスの安定化を図る。
実験の結果,GRL-Promptは最近の最先端手法よりも優れており,ROUGE-1では0.10,ROUGE-2では0.07,ROUGE-Lでは0.07,BLEUでは0.05であった。
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Generation for Few-shot Learning [14.200398093260118]
事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。
既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。
数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
論文 参考訳(メタデータ) (2023-08-14T16:58:50Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。