Fugu-MT 論文翻訳(概要): Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

論文の概要: Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

arxiv url: http://arxiv.org/abs/2503.01163v1
Date: Mon, 03 Mar 2025 04:24:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.821152
Title: Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers
Title（参考訳）: Bandit-based Prompt Design Strategy Selections Improvs Prompt Optimizers
Authors: Rin Ashizawa, Yoichi Hirose, Nozomu Yoshinari, Kento Uchida, Shinichi Shirakawa,
Abstract要約: 本稿では,プロンプト設計のための明示的な選択機構を実装した sTrategy Selection (OPTS) を提案する。我々はトンプソンサンプリングに基づくアプローチを含む3つのメカニズムを提案し、それらをEvoPromptに統合する。提案手法は,エボプロンプトの性能向上に寄与することが示唆された。
参考スコア（独自算出の注目度）: 1.5845117761091052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt optimization aims to search for effective prompts that enhance the performance of large language models (LLMs). Although existing prompt optimization methods have discovered effective prompts, they often differ from sophisticated prompts carefully designed by human experts. Prompt design strategies, representing best practices for improving prompt performance, can be key to improving prompt optimization. Recently, a method termed the Autonomous Prompt Engineering Toolbox (APET) has incorporated various prompt design strategies into the prompt optimization process. In APET, the LLM is needed to implicitly select and apply the appropriate strategies because prompt design strategies can have negative effects. This implicit selection may be suboptimal due to the limited optimization capabilities of LLMs. This paper introduces Optimizing Prompts with sTrategy Selection (OPTS), which implements explicit selection mechanisms for prompt design. We propose three mechanisms, including a Thompson sampling-based approach, and integrate them into EvoPrompt, a well-known prompt optimizer. Experiments optimizing prompts for two LLMs, Llama-3-8B-Instruct and GPT-4o mini, were conducted using BIG-Bench Hard. Our results show that the selection of prompt design strategies improves the performance of EvoPrompt, and the Thompson sampling-based mechanism achieves the best overall results. Our experimental code is provided at https://github.com/shiralab/OPTS .
Abstract（参考訳）: Prompt Optimizationは、大規模言語モデル(LLM)の性能を高める効果的なプロンプトを探すことを目的としている。既存のプロンプト最適化手法は効果的なプロンプトを発見したが、しばしば人間の専門家が慎重に設計した洗練されたプロンプトとは異なる。迅速なパフォーマンスを改善するためのベストプラクティスを表すプロンプト設計戦略は、迅速な最適化を改善するための鍵となる。近年,Autonomous Prompt Engineering Toolbox (APET) と呼ばれる手法が,プロンプト最適化プロセスに様々なプロンプト設計戦略を取り入れている。 APETでは、設計戦略がネガティブな影響を与える可能性があるため、LLMは暗黙的に適切な戦略を選択し、適用する必要がある。この暗黙選択は、LLMの限られた最適化能力のため、準最適である可能性がある。本稿では,プロンプト設計のための明示的な選択機構を実装したOPTS(Optimizing Prompts with sTrategy Selection)を提案する。我々は、トンプソンサンプリングに基づくアプローチを含む3つのメカニズムを提案し、それをよく知られたプロンプトオプティマイザであるEvoPromptに統合する。 BIG-Bench Hardを用いてLlama-3-8B-InstructとGPT-4o miniの2つのLLMのプロンプトを最適化する実験を行った。提案手法は,EvoPromptの性能向上を図り,トンプソンのサンプリングに基づく機構により,最も優れた総合的な結果が得られることを示す。実験コードはhttps://github.com/shiralab/OPTS で提供されている。

関連論文リスト

Local Prompt Optimization [0.6906005491572401]
Local Prompt Optimizationは、任意の一般的な自動プロンプトエンジニアリング手法と統合される。我々は,Math Reasoning(GSM8kとMultiArithm)とBIG-bench Hardベンチマークの性能改善を観察した。
論文参考訳（メタデータ） (2025-04-29T01:45:47Z)
CAPO: Cost-Aware Prompt Optimization [3.0290544952776854]
大規模言語モデル(LLM)は、単にプロンプトによって導かれる幅広いタスクを解くことで、自然言語処理に革命をもたらした。本稿では,AutoML技術を統合することにより,迅速な最適化効率を向上させるアルゴリズムCAPOを紹介する。実験の結果,CAPOは11/15例において21%pまで改善された場合において,最先端の離散的プロンプト最適化法よりも優れていた。
論文参考訳（メタデータ） (2025-04-22T16:14:31Z)
StraGo: Harnessing Strategic Guidance for Prompt Optimization [35.96577924228001]
StraGoは、成功したケースと失敗したケースの両方からの洞察を活用することで、迅速な漂流を軽減するために設計された、新しいアプローチである。具体的な行動可能な戦略を定式化するために、コンテキスト内学習を統合するハウツード手法を採用している。推論、自然言語理解、ドメイン固有の知識、産業アプリケーションなど、さまざまなタスクで実施された実験は、StraGoの優れたパフォーマンスを実証している。
論文参考訳（メタデータ） (2024-10-11T07:55:42Z)
Learning from Contrastive Prompts: Automated Optimization and Adaptation [7.455360923031003]
本稿では,高速な最適化と適応を実現するためのLCP(Learning from Contrastive Prompts)フレームワークを提案する。 LCPは、良い例と悪い例のパターンを分析することによって効果的なプロンプトを生成するために、対照的な学習を採用している。我々のBig-Bench Hardデータセットに対する評価は、LCPが既存の最適化手法よりも76%以上勝っていることを示している。
論文参考訳（メタデータ） (2024-09-23T16:47:23Z)
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文参考訳（メタデータ） (2024-07-04T18:39:59Z)
Symbolic Prompt Program Search: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization [14.012833238074332]
本稿では,プロンプトプログラムのコンパイル時最適化を行うSAMMOを紹介する。 SAMMOは記号レベルでプロンプトプログラムを表しており、豊富な変換が可能である。 SAMMOは,(1)命令チューニング,(2)RAGパイプラインチューニング,(3)プロンプト圧縮において,従来の手法を一般化し,複雑なプロンプトの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-04-02T21:35:54Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
MultiPrompter: Cooperative Prompt Optimization with Multi-Agent Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文参考訳（メタデータ） (2023-10-25T15:58:51Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。