論文の概要: Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL
- arxiv url: http://arxiv.org/abs/2309.06553v4
- Date: Thu, 7 Mar 2024 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:55:33.344166
- Title: Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL
- Title(参考訳): オフライン逆RLを用いたクエリ依存型プロンプト評価と最適化
- Authors: Hao Sun, Alihan H\"uy\"uk, Mihaela van der Schaar
- Abstract要約: ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
- 参考スコア(独自算出の注目度): 62.824464372594576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we aim to enhance the arithmetic reasoning ability of Large
Language Models (LLMs) through zero-shot prompt optimization. We identify a
previously overlooked objective of query dependency in such optimization and
elucidate two ensuing challenges that impede the successful and economical
design of prompt optimization techniques. One primary issue is the absence of
an effective method to evaluate prompts during inference when the golden answer
is unavailable. Concurrently, learning via interactions with the LLMs to
navigate the expansive natural language prompting space proves to be
resource-intensive. To address this, we introduce Prompt-OIRL, which harnesses
offline inverse reinforcement learning to draw insights from offline prompting
demonstration data. Such data exists as by-products when diverse prompts are
benchmarked on open-accessible datasets. With Prompt-OIRL, the query-dependent
prompt optimization objective is achieved by first learning an offline reward
model. This model can evaluate any query-prompt pairs without accessing LLMs.
Subsequently, a best-of-N strategy is deployed to recommend the optimal prompt.
Our experimental evaluations across various LLM scales and arithmetic reasoning
datasets underscore both the efficacy and economic viability of the proposed
approach.
- Abstract(参考訳): 本研究では,ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化において、以前見過ごされたクエリ依存の目的を特定し、迅速な最適化手法の成功と経済的設計を妨げる2つの課題を解明する。
第一の問題は、金の答えが利用できないときに推論中にプロンプトを評価する効果的な方法がないことである。
同時に、拡張的な自然言語をナビゲートするためのllmとのインタラクションを通じて学習することで、リソース集約性が証明される。
これに対処するために,オフラインの逆強化学習を利用して,オフラインでプロンプトするデモンストレーションデータから洞察を引き出すprompt-oirlを導入する。
このようなデータは、オープンアクセス可能なデータセット上でさまざまなプロンプトがベンチマークされるときに副産物として存在する。
Prompt-OIRLでは、オフライン報酬モデルを学習することで、クエリ依存のプロンプト最適化の目的を達成する。
このモデルは、llmにアクセスせずに任意のクエリ-promptペアを評価することができる。
その後、最適なプロンプトを推奨するためにベストオブN戦略が展開される。
提案手法の有効性と経済性を評価するために, LLM尺度と算術推論データセットを用いた実験を行った。
関連論文リスト
- Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - PhaseEvo: Towards Unified In-Context Prompt Optimization for Large
Language Models [9.362082187605356]
本稿では、LLMの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動プロンプト最適化フレームワークであるPhaseEvoについて述べる。
PhaseEvoは、優れた効率を維持しながら、最先端のベースライン手法を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。