論文の概要: DelvePO: Direction-Guided Self-Evolving Framework for Flexible Prompt Optimization
- arxiv url: http://arxiv.org/abs/2510.18257v1
- Date: Tue, 21 Oct 2025 03:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.840359
- Title: DelvePO: Direction-Guided Self-Evolving Framework for Flexible Prompt Optimization
- Title(参考訳): DelvePO: フレキシブルプロンプト最適化のための方向誘導型自己進化フレームワーク
- Authors: Tao Tao, Guanghui Zhu, Lang Guo, Hongyi Chen, Chunfeng Yuan, Yihua Huang,
- Abstract要約: 自己進化的な方法でプロンプトを最適化するタスク非依存のフレームワークを提案する。
私たちのフレームワークでは、異なる要因が様々なタスクに与える影響を調べるために、プロンプトを異なるコンポーネントに分離します。
DelvePOは、同じ実験環境下で、従来のSOTAメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 24.65474871019772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt Optimization has emerged as a crucial approach due to its capabilities in steering Large Language Models to solve various tasks. However, current works mainly rely on the random rewriting ability of LLMs, and the optimization process generally focus on specific influencing factors, which makes it easy to fall into local optimum. Besides, the performance of the optimized prompt is often unstable, which limits its transferability in different tasks. To address the above challenges, we propose $\textbf{DelvePO}$ ($\textbf{D}$irection-Guid$\textbf{e}$d Se$\textbf{l}$f-E$\textbf{v}$olving Framework for Fl$\textbf{e}$xible $\textbf{P}$rompt $\textbf{O}$ptimization), a task-agnostic framework to optimize prompts in self-evolve manner. In our framework, we decouple prompts into different components that can be used to explore the impact that different factors may have on various tasks. On this basis, we introduce working memory, through which LLMs can alleviate the deficiencies caused by their own uncertainties and further obtain key insights to guide the generation of new prompts. Extensive experiments conducted on different tasks covering various domains for both open- and closed-source LLMs, including DeepSeek-R1-Distill-Llama-8B, Qwen2.5-7B-Instruct and GPT-4o-mini. Experimental results show that DelvePO consistently outperforms previous SOTA methods under identical experimental settings, demonstrating its effectiveness and transferability across different tasks.
- Abstract(参考訳): Prompt Optimizationは、様々なタスクを解決するために大規模言語モデルを操る能力のために、重要なアプローチとして登場した。
しかし、現在の研究は主にLLMのランダムな書き換え能力に依存しており、最適化プロセスは一般的に特定の影響要因に重点を置いており、局所的な最適化に陥ることが容易である。
さらに、最適化されたプロンプトの性能はしばしば不安定であり、異なるタスクにおける転送可能性を制限する。
上記の課題に対処するため、我々は、Fl$\textbf{e}$xible $\textbf{P}$rompt $\textbf{O}$ptimizationというタスク非依存のフレームワークを、自己回避でプロンプトを最適化するためのタスク依存フレームワークとして、$\textbf{D}$irection-Guid$\textbf{e}$d Se$\textbf{l}$f-E$\textbf{v}$olving Frameworkを提案する。
私たちのフレームワークでは、異なる要因が様々なタスクに与える影響を調べるために、プロンプトを異なるコンポーネントに分離します。
そこで本研究では,LLMが自身の不確実性に起因する欠陥を軽減し,新たなプロンプトの生成を導く上で重要な洞察を得ることが可能なワーキングメモリについて紹介する。
DeepSeek-R1-Distill-Llama-8B, Qwen2.5-7B-Instruct, GPT-4o-miniなど, オープンソースLLMのさまざまな領域をカバーする大規模な実験を行った。
実験結果から,DelvePOは従来のSOTA法を同一条件で一貫した性能を示し,その有効性および伝達性を示した。
関連論文リスト
- Few-Shot Design Optimization by Exploiting Auxiliary Information [39.83852410377445]
実験が高次元補助情報$h(x)$と性能指標$f(x)$を同時に生成する新しい設定を導入する。
我々の設定の重要な課題は、タスク履歴を超えた新しい最適化タスクを効率的に解決するために$h(x)$をどのように表現し、利用するかを学ぶことです。
我々は,この設定のための新しいアプローチを開発し,数ショットのコンテキストを与えられた未知のデザインに対して$f(x)$を予測できるニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2026-02-12T16:03:46Z) - Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts [6.792743621449621]
我々は、Top-k$ Learning-to-Deferの最初のフレームワークを紹介します。
クエリを$k$のコスト効率の高いエンティティに割り当てる。
また、クエリ毎に最適な専門家数を学ぶ適応型変種であるTop-$k(x)$ Learning-to-Deferを提案する。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - LW2G: Learning Whether to Grow for Prompt-based Continual Learning [55.552510632228326]
最近のPromptベースの連続学習は、事前訓練されたモデルで顕著な性能を達成した。
これらのアプローチは、学習中に新しいプロンプトセットを追加してプロンプトプールを拡張し、推論中に正しいセットを選択する。
従来,PCLの性能向上に課題を呈する課題として,タスク指向のプロンプトセットの個別化と選択精度の低さが指摘されてきた。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Efficient Prompt Optimization Through the Lens of Best Arm Identification [50.56113809171805]
この作業は、明示的な予算制約の下でプロンプト選択を効率的に行うための、原則化されたフレームワークであるTRIPLEを提供する。
マルチアームバンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された新しい接続上に構築されている。
論文 参考訳(メタデータ) (2024-02-15T05:31:13Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - Learning (Local) Surrogate Loss Functions for Predict-Then-Optimize
Problems [58.954414264760956]
決定焦点学習(Decision-Focused Learning, DFL)は、予測モデルを下流の最適化タスクに調整するためのパラダイムである。
本稿では,(a)最適化問題を解き,一般化可能なブラックボックスオラクルへのアクセスのみを必要とする忠実なタスク固有サロゲートを学習し,(b)勾配で凸し,容易に最適化できる手法を提案する。
論文 参考訳(メタデータ) (2022-03-30T05:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。