論文の概要: Meta-Prompt Optimization for LLM-Based Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2502.00728v1
- Date: Sun, 02 Feb 2025 09:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:10.899593
- Title: Meta-Prompt Optimization for LLM-Based Sequential Decision Making
- Title(参考訳): LLMに基づくシーケンス決定のためのメタプロンプト最適化
- Authors: Mingze Kong, Zhiyong Wang, Yao Shu, Zhongxiang Dai,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクを解決するエージェントとして採用されている。
メタプロンプトにおけるタスク記述とメタインストラクションを自動的に最適化する,プロンプト最適化(EXPO)のためのEXPonential-weightアルゴリズムを提案する。
また、EXPOを拡張して、メタプロンプトの例を最適化し、パフォーマンスをさらに向上する。
- 参考スコア(独自算出の注目度): 24.050701239196876
- License:
- Abstract: Large language models (LLMs) have recently been employed as agents to solve sequential decision-making tasks such as Bayesian optimization and multi-armed bandits (MAB). These works usually adopt an LLM for sequential action selection by providing it with a fixed, manually designed meta-prompt. However, numerous previous works have found that the prompt has a significant impact on the performance of the LLM, which calls for a method to automatically optimize the meta-prompt for LLM-based agents. Unfortunately, the non-stationarity in the reward observations during LLM-based sequential decision-making makes meta-prompt optimization highly challenging. To address this challenge, we draw inspirations from adversarial bandit algorithms, which are inherently capable of handling non-stationary reward observations. Building on this foundation, we propose our EXPonential-weight algorithm for prompt Optimization} (EXPO) to automatically optimize the task description and meta-instruction in the meta-prompt for LLM-based agents. We also extend EXPO to additionally optimize the exemplars (i.e., history of interactions) in the meta-prompt to further enhance the performance, hence introducing our EXPO-ES algorithm. We use extensive experiments to show that our algorithms significantly improve the performance of LLM-based sequential decision-making.
- Abstract(参考訳): 大規模言語モデル (LLM) はベイジアン最適化やマルチアーム・バンディット (MAB) のような逐次的意思決定タスクを解くエージェントとして最近採用されている。
これらの作業は通常、固定された手動で設計されたメタプロンプトを提供することで、シーケンシャルなアクション選択にLLMを採用する。
しかし、多くの先行研究により、このプロンプトがLSMの性能に重大な影響を与えており、LSMベースのエージェントのメタプロンプトを自動的に最適化する手法が求められている。
残念ながら、LCMに基づく逐次意思決定における報酬観測の非定常性は、メタプロンプト最適化を非常に困難にしている。
この課題に対処するために,本研究では,非定常報酬観測を本質的に処理可能な,逆帯域幅アルゴリズムのインスピレーションを引き出す。
この基礎の上に構築したEXPO(ExPonential-weight Algorithm for prompt Optimization)は,LLMエージェントのメタプロンプトにおけるタスク記述とメタインストラクションを自動的に最適化するアルゴリズムである。
また,EXPOを拡張して,メタプロンプトの先例(インタラクション履歴)を最適化し,さらなる性能向上を実現し,EXPO-ESアルゴリズムを導入した。
我々は、LLMに基づく逐次意思決定の性能を大幅に向上することを示すため、広範囲な実験を行った。
関連論文リスト
- Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文 参考訳(メタデータ) (2025-02-03T07:19:05Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction [14.982446379660633]
大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。
複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。
本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
論文 参考訳(メタデータ) (2024-06-17T12:11:01Z) - RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
LLMエージェントに与えられたプロンプトのステップバイステップ命令を最適化するために、段階的な降下を行う新しい方法、textscRePromptを提案する。
中間的なフィードバックを活用することで、 textscRePromptは最終的なソリューションチェッカーを必要とせずにプロンプトを最適化できる。
論文 参考訳(メタデータ) (2024-06-17T01:23:11Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。