論文の概要: Offline Prompt Evaluation and Optimization with Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.06553v1
- Date: Wed, 13 Sep 2023 01:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:34:08.932479
- Title: Offline Prompt Evaluation and Optimization with Inverse Reinforcement
Learning
- Title(参考訳): 逆強化学習によるオフライン迅速評価と最適化
- Authors: Hao Sun
- Abstract要約: この研究は、オフライン逆強化学習に根ざしたアプローチであるPrompt-OIRLを導入している。
Prompt-OIRLの利点は多様体であり、即時性能を予測し、コスト効率を高くし、可読性のある結果を生成し、プロンプト空間を効率的にナビゲートする。
- 参考スコア(独自算出の注目度): 8.044033685073003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in the development of Large Language Models (LLMs) like
ChatGPT have achieved remarkable performance by leveraging human expertise.
Yet, fully eliciting LLMs' potential for complex tasks requires navigating the
vast search space of natural language prompts. While prompt engineering has
shown promise, the requisite human-crafted prompts in trial-and-error attempts
and the associated costs pose significant challenges. Crucially, the efficiency
of prompt optimization hinges on the costly procedure of prompt evaluation.
This work introduces Prompt-OIRL, an approach rooted in offline inverse
reinforcement learning that seeks to bridge the gap between effective prompt
evaluation and affordability. Our method draws on offline datasets from expert
evaluations, employing Inverse-RL to derive a reward model for offline,
query-dependent prompt evaluations. The advantages of Prompt-OIRL are manifold:
it predicts prompt performance, is cost-efficient, produces human-readable
results, and efficiently navigates the prompt space. We validate our method
across four LLMs and three arithmetic datasets, highlighting its potential as a
robust and effective tool for offline prompt evaluation and optimization. Our
code as well as the offline datasets are released, and we highlight the
Prompt-OIRL can be reproduced within a few hours using a single laptop using
CPU
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)の開発における最近の進歩は、人間の専門知識を活用することで、目覚ましい成果を上げている。
しかし、複雑なタスクに対するLLMの可能性を十分に引き出すには、自然言語プロンプトの広大な検索空間をナビゲートする必要がある。
プロンプトエンジニアリングは約束を示しているが、試行錯誤の必要なプロンプトと関連するコストは重大な課題をもたらす。
重要なことは、迅速な最適化の効率は、迅速な評価のコストのかかる手順に依存する。
この研究は、オフライン逆強化学習に根ざしたアプローチであるPrompt-OIRLを導入し、効果的な迅速な評価と手頃さのギャップを埋めようとしている。
提案手法はエキスパート評価からオフラインデータセットを抽出し,Inverse-RLを用いてオフラインでクエリ依存のプロンプト評価を行う。
prompt-oirl の利点は多様体であり、即席性能を予測し、コスト効率が良く、可読性のある結果を生成し、プロンプト空間を効率的にナビゲートする。
提案手法は4つのLLMと3つの算術データセットにまたがって検証し、オフラインで評価と最適化を行うための堅牢で効果的なツールとしての可能性を強調した。
私たちのコードとオフラインデータセットがリリースされ、CPUを使用した単一のラップトップを使用して、数時間以内にPrompt-OIRLを再現できることを強調します。
関連論文リスト
- Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - PhaseEvo: Towards Unified In-Context Prompt Optimization for Large
Language Models [9.362082187605356]
本稿では、LLMの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動プロンプト最適化フレームワークであるPhaseEvoについて述べる。
PhaseEvoは、優れた効率を維持しながら、最先端のベースライン手法を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Generation for Few-shot Learning [14.200398093260118]
事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。
既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。
数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
論文 参考訳(メタデータ) (2023-08-14T16:58:50Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。