論文の概要: Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs
- arxiv url: http://arxiv.org/abs/2507.09839v1
- Date: Mon, 14 Jul 2025 00:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.075782
- Title: Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs
- Title(参考訳): プロンプト最適化の再考:Blackbox LLMの強化、多様化、マイグレーション
- Authors: MohammadReza Davari, Utkarsh Garg, Weixin Cai, Eugene Belilovsky,
- Abstract要約: 本稿では,フィードバック機構の強化を主眼とした新しい自動プロンプト最適化(APO)フレームワークを提案する。
LLM生成したフィードバックに固有のノイズを軽減するため,フィードバックの多様化という手法を導入する。
我々のアプローチは、強いベースラインを一貫して上回り、大幅な精度の向上、より高速な収束、計算コストの低減を実現している。
- 参考スコア(独自算出の注目度): 10.434732630519377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing number of NLP applications interact with large language models (LLMs) through black-box APIs, making prompt engineering critical for controlling model outputs. While recent Automatic Prompt Optimization (APO) methods iteratively refine prompts using model-generated feedback, textual gradients, they primarily focus on error correction and neglect valuable insights from correct predictions. This limits both their effectiveness and efficiency. In this paper, we propose a novel APO framework centered on enhancing the feedback mechanism. We reinterpret the textual gradient as a form of negative reinforcement and introduce the complementary positive reinforcement to explicitly preserve beneficial prompt components identified through successful predictions. To mitigate the noise inherent in LLM-generated feedback, we introduce a technique called feedback diversification, which aggregates multiple feedback signals, emphasizing consistent, actionable advice while filtering out outliers. Motivated by the rapid evolution and diversity of available LLMs, we also formalize Continual Prompt Optimization (CPO), addressing the practical challenge of efficiently migrating optimized prompts between different model versions or API providers. Our experiments reveal that naive prompt migration often degrades performance due to loss of critical instructions. In contrast, our approach consistently outperforms strong baselines, achieving significant accuracy improvements, faster convergence, and lower computational costs in both standard and migration scenarios.
- Abstract(参考訳): ブラックボックスAPIを通じて、大規模な言語モデル(LLM)と対話するNLPアプリケーションが増えているため、迅速なエンジニアリングがモデル出力の制御に不可欠である。
最近の自動プロンプト最適化(APO)手法は、モデル生成フィードバックやテキスト勾配を用いてプロンプトを反復的に洗練するが、主にエラー訂正と正しい予測からの貴重な洞察を無視している。
これにより効率と効率の両方が制限される。
本稿では,フィードバック機構の強化に着目した新しいAPOフレームワークを提案する。
我々は,テキストの勾配を負の強化の一形態として再解釈し,その相補的な正の補強を導入し,予測によって同定された有益なプロンプト成分を明示的に保存する。
LLM生成したフィードバックに固有のノイズを軽減するため,複数のフィードバック信号を集約するフィードバック多様化手法を提案する。
利用可能なLLMの急速な進化と多様性を動機として、継続プロンプト最適化(Continuous Prompt Optimization, CPO)を形式化し、異なるモデルバージョンやAPIプロバイダ間で最適化プロンプトを効率的に移行するという現実的な課題に対処します。
実験の結果,素早い移動は重要な指示の欠如によってしばしば性能が低下することがわかった。
対照的に、我々のアプローチは強いベースラインを一貫して上回り、大幅な精度の向上、収束の高速化、標準シナリオと移行シナリオの両方における計算コストの削減を実現している。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [41.69340422699651]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent [24.134616865308985]
本稿では,新しいマルチターン優先最適化パラダイムECPOを提案する。
我々は,ECPOがCRAの相互作用能力を大幅に向上させ,既存のMTPO法よりも効率と有効性を両立させることを示す。
論文 参考訳(メタデータ) (2025-06-17T08:29:04Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization [29.706347050700867]
大規模ビデオ言語モデル(LVLM)は、微細な時間的理解と幻覚に苦慮し、単純なビデオ質問応答タスクでも単純な誤りを犯すことが多い。
本稿では,LVLMが自己の誤りから学習できる自己調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:43:56Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。