論文の概要: Hyperband-based Bayesian Optimization for Black-box Prompt Selection
- arxiv url: http://arxiv.org/abs/2412.07820v1
- Date: Tue, 10 Dec 2024 14:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:46.858104
- Title: Hyperband-based Bayesian Optimization for Black-box Prompt Selection
- Title(参考訳): ブラックボックスプロンプト選択のためのハイパーバンドベースベイズ最適化
- Authors: Lennart Schneider, Martin Wistuba, Aaron Klein, Jacek Golebiowski, Giovanni Zappella, Felice Antonio Merra,
- Abstract要約: 下流タスクにおける大規模言語モデル(LLM)のパフォーマンスを最大化するためには、最適なプロンプト選択が不可欠である。
我々は、ブラックボックスプロンプト選択のための新しいハイパバンドベースのベイズ最適化手法であるHbBoPsを紹介する。
提案手法では,マルチファイダリティスケジューラとしてHyperbandを用いて,構造を意識したディープカーネルガウス処理を用いて,プロンプト性能をモデル化する。
- 参考スコア(独自算出の注目度): 15.756224286651237
- License:
- Abstract: Optimal prompt selection is crucial for maximizing large language model (LLM) performance on downstream tasks. As the most powerful models are proprietary and can only be invoked via an API, users often manually refine prompts in a black-box setting by adjusting instructions and few-shot examples until they achieve good performance as measured on a validation set. Recent methods addressing static black-box prompt selection face significant limitations: They often fail to leverage the inherent structure of prompts, treating instructions and few-shot exemplars as a single block of text. Moreover, they often lack query-efficiency by evaluating prompts on all validation instances, or risk sub-optimal selection of a prompt by using random subsets of validation instances. We introduce HbBoPs, a novel Hyperband-based Bayesian optimization method for black-box prompt selection addressing these key limitations. Our approach combines a structural-aware deep kernel Gaussian Process to model prompt performance with Hyperband as a multi-fidelity scheduler to select the number of validation instances for prompt evaluations. The structural-aware modeling approach utilizes separate embeddings for instructions and few-shot exemplars, enhancing the surrogate model's ability to capture prompt performance and predict which prompt to evaluate next in a sample-efficient manner. Together with Hyperband as a multi-fidelity scheduler we further enable query-efficiency by adaptively allocating resources across different fidelity levels, keeping the total number of validation instances prompts are evaluated on low. Extensive evaluation across ten benchmarks and three LLMs demonstrate that HbBoPs outperforms state-of-the-art methods.
- Abstract(参考訳): 下流タスクにおける大規模言語モデル(LLM)のパフォーマンスを最大化するためには、最適なプロンプト選択が不可欠である。
最も強力なモデルはプロプライエタリであり、API経由でのみ呼び出すことができるため、ユーザーは検証セットで測定されたパフォーマンスを達成するまで、指示やいくつかの例を調整することで、手動でプロンプトをブラックボックス設定で洗練することが多い。
静的ブラックボックスプロンプトの選択に対処する最近の手法は、重要な制限に直面している。
さらに、すべてのバリデーションインスタンスのプロンプトを評価することや、ランダムなバリデーションインスタンスのサブセットを使用することでプロンプトのサブ最適選択のリスクを評価することで、クエリ効率を欠くことが多い。
我々はこれらの制限に対処するブラックボックスプロンプト選択のための新しいハイパバンドベースのベイズ最適化手法であるHbBoPsを紹介する。
提案手法では,マルチファイダリティスケジューラとしてハイパーバンドを用いて性能をモデル化し,性能評価のためのバリデーションインスタンス数を選択する。
構造認識モデリングアプローチでは、命令と少数ショットの例に個別の埋め込みを利用して、サロゲートモデルの迅速なパフォーマンスをキャプチャし、次にどのプロンプトをサンプル効率で評価するかを予測する能力を高めている。
マルチフィデリティスケジューラとしてHyperbandとともに、異なるフィデリティレベルのリソースを適応的に割り当てることにより、クエリ効率をさらに高め、バリデーションインスタンスの総数を低く評価する。
10のベンチマークと3つのLCMの大規模な評価は、HbBoPsが最先端の手法より優れていることを示している。
関連論文リスト
- Auto-Demo Prompting: Leveraging Generated Outputs as Demonstrations for Enhanced Batch Prompting [0.8238423959893132]
自動デモ(Auto-Demo Prompting)は、初期質問からの問合せペアを、その後の回答推論の実証としてバッチ内で活用する、新しいアプローチである。
本手法は,バッチプロンプトと少数ショットプロンプトのギャップを効果的に埋め,トークン使用率のわずかな妥協だけで性能を向上する。
論文 参考訳(メタデータ) (2024-10-02T16:34:40Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Improving Minimum Bayes Risk Decoding with Multi-Prompt [10.401677244785166]
提案するマルチプロンプト復号法では,多くの候補が推論時にプロンプトバンクから復号される。
候補をアンサンブルするために、最小ベイズリスク(MBR)デコーディングを使用し、トレーニングされた値メトリックを使用して最終的な出力を選択する。
論文 参考訳(メタデータ) (2024-07-22T02:57:10Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Efficient Prompt Optimization Through the Lens of Best Arm Identification [50.56113809171805]
この作業は、明示的な予算制約の下でプロンプト選択を効率的に行うための、原則化されたフレームワークであるTRIPLEを提供する。
マルチアームバンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された新しい接続上に構築されている。
論文 参考訳(メタデータ) (2024-02-15T05:31:13Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。