論文の概要: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
- arxiv url: http://arxiv.org/abs/2510.13907v1
- Date: Tue, 14 Oct 2025 22:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.531224
- Title: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
- Title(参考訳): LLM Prompt Duel Optimizer: 効率的なラベルフリープロンプト最適化
- Authors: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill,
- Abstract要約: 大規模言語モデル(LLM)は入力プロンプトに非常に敏感である。
ラベルフリーなプロンプト最適化のためのサンプル効率のよいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.083370519334219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
- Abstract(参考訳): 大規模言語モデル(LLM)は入力プロンプトに非常に敏感であり、プロンプト設計が中心的な課題である。
自動プロンプト最適化(APO)は手動のエンジニアリングを減らしますが、ほとんどの手法ではラベル付きバリデーションデータのような地道参照へのアクセスを前提としています。
しかし実際には、高品質なラベルの収集は高価で遅い。
本稿では,ラベルフリーなプロンプト最適化のためのサンプル効率の高いフレームワークであるPrompt Duel Optimizer (PDO)を提案する。
PDOは、この問題を、LLMの審査員によって提供されるペアワイズな選好フィードバックから得られる、デューリング帯域設定として定式化する。
このフレームワークは、情報的プロンプト比較を優先するDouble Thompson Sampling (D-TS)と、ハイパフォーマンスなプロンプトを変更して候補プールを拡張するTop-Performer Guided Mutationを組み合わせる。
PDOは自然にラベルのない環境で動作し、判断ノイズを軽減するために部分的なラベルを組み込むこともできる。
BIG-bench Hard (BBH) と MS MARCO の実験は、PDO がベースライン法より一貫して優れていることを示している。
アブレーション研究は、D-TSと即時突然変異の効果をさらに示している。
関連論文リスト
- Self-Supervised Prompt Optimization [19.159322848728646]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - Hyperband-based Bayesian Optimization for Black-box Prompt Selection [15.756224286651237]
ブラックボックスのプロンプト選択は、潜在的に大きな検索スペース、勾配情報の欠如、検証セット上のプロンプトの評価コストが高いため、困難である。
本稿では,HbBoPsを提案する。HbBoPsは,マルチファイダリティスケジューラとして,構造を意識したディープカーネルガウスプロセスとハイパーバンドを組み合わせた新しい手法である。
HbBoPsは、パフォーマンスと効率の両方で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-10T14:42:51Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。