論文の概要: Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10030v1
- Date: Fri, 08 Aug 2025 18:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.029094
- Title: Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models
- Title(参考訳): ブラックボックス大言語モデルの推論型プロンプト最適化
- Authors: Saaduddin Mahmud, Mason Nakamura, Kyle H. Wray, Shlomo Zilberstein,
- Abstract要約: 既存のプロンプト最適化アプローチは推論戦略に依存しない。つまり、デプロイ中に使用される推論戦略によらず、プロンプトを最適化する。
我々は、推論予算と異なるタスク目標を意識しながら、プロンプトと推論のスケールを協調的に最適化する、IAPOという統合された新しいフレームワークを導入する。
我々は、PSSTと呼ばれるIAPOの固定予算トレーニングアルゴリズムを開発し、エラー確率の有限予算保証を分析する。
- 参考スコア(独自算出の注目度): 8.579682278783784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt optimization methods have demonstrated significant effectiveness in aligning black-box large language models (LLMs). In parallel, inference scaling strategies such as Best-of-N Sampling and Majority Voting have also proven to enhance alignment and performance by trading off computation. However, existing prompt optimization approaches are inference strategy agnostic; that is, they optimize prompts without regard to the inference strategy employed during deployment. This constitutes a significant methodological gap, as our empirical and theoretical analysis reveals a strong interdependence between these two paradigms. Moreover, we find that user preferences regarding trade-offs among multiple objectives and inference budgets substantially influence the choice of prompt and inference configuration. To address this gap, we introduce a unified novel framework named IAPO (Inference-Aware Prompt Optimization) that jointly optimizes the prompt and inference scale, while being aware of the inference budget and different task objectives. We then develop a fixed-budget training algorithm for IAPO, which we call PSST (Prompt Scaling via Sequential Trimming), and analyze finite-budget guarantees on error probability. Finally, we evaluate the effectiveness of PSST on six different tasks, including multi-objective text generation and reasoning, and demonstrate the critical role of incorporating inference-awareness when aligning black-box LLMs through prompt optimization.
- Abstract(参考訳): プロンプト最適化法は,ブラックボックス大言語モデル (LLM) の整合性に有意な効果を示した。
並行して、Best-of-N SmplingやMajority Votingといった推論スケーリング戦略も、計算をオフにすることでアライメントとパフォーマンスを向上させることを証明している。
しかし、既存のプロンプト最適化アプローチは推論戦略に依存しない。
この2つのパラダイム間の強い相互依存性が実証的および理論的分析によって明らかになるため、これは重要な方法論的ギャップを構成する。
さらに,複数目的と推論予算間のトレードオフに関するユーザの嗜好が,プロンプトと推論設定の選択に大きく影響していることが判明した。
このギャップに対処するために、推論予算と異なるタスク目標を意識しながら、プロンプトと推論スケールを協調的に最適化するIAPO(Inference-Aware Prompt Optimization)という統合された新しいフレームワークを導入する。
次に、PSST(Prompt Scaling via Sequential Trimming)と呼ばれるIAPOのための固定予算トレーニングアルゴリズムを開発し、エラー確率に関する有限予算保証を分析する。
最後に、多目的テキスト生成や推論を含む6つのタスクにおけるPSSTの有効性を評価し、即時最適化によるブラックボックスLLMの整列において、推論認識を組み込むことが重要であることを示す。
関連論文リスト
- A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z) - Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。
アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2024-12-05T16:12:06Z) - SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization [8.975505323004427]
大規模言語モデル(LLM)のための新しい結合型インコンテキストプロンプト最適化フレームワークを提案する。
SEEは、メタヒューリスティック最適化の原則を採用し、戦略的に探索と活用を行うスケーラブルで効率的なプロンプト最適化フレームワークである。
SEEは最先端のベースライン法を大幅に上回り、平均性能は13.94、計算コストは58.67である。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。