論文の概要: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16307v1
- Date: Thu, 22 May 2025 06:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.104088
- Title: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models
- Title(参考訳): PMPO:小規模および大規模言語モデルに対する確率論的メトリックプロンプト最適化
- Authors: Chenzhuo Zhao, Ziqian Liu, Xingda Wang, Junting Lu, Chaoyi Ruan,
- Abstract要約: PMPOはトークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として利用するプロンプトを洗練するフレームワークである。
従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。
実験の結果、PMPOはモデルのサイズやタスクにまたがる先行メソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 0.15146068448101743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt optimization offers a practical and broadly applicable alternative to fine-tuning for improving large language model (LLM) performance. However, existing methods often rely on costly output generation, self-critiquing abilities, or human-annotated preferences, which limit their scalability, especially for smaller or non-instruction-tuned models. We introduce PMPO (Probabilistic Metric Prompt Optimization), a unified framework that refines prompts using token-level cross-entropy loss as a direct, lightweight evaluation signal. PMPO identifies low-quality prompt segments by masking and measuring their impact on loss, then rewrites and selects improved variants by minimizing loss over positive and negative examples. Unlike prior methods, it requires no output sampling or human evaluation during optimization, relying only on forward passes and log-likelihoods. PMPO supports both supervised and preference-based tasks through a closely aligned loss-based evaluation strategy. Experiments show that PMPO consistently outperforms prior methods across model sizes and tasks: it achieves the highest average accuracy on BBH, performs strongly on GSM8K and AQUA-RAT, and improves AlpacaEval 2.0 win rates by over 19 points. These results highlight PMPO's effectiveness, efficiency, and broad applicability.
- Abstract(参考訳): Prompt最適化は、大規模言語モデル(LLM)の性能を改善するための微調整に代わる実用的で広く適用可能な代替手段を提供する。
しかし、既存の手法はコストのかかる出力生成、自己評価能力、人間による注釈付けの好みに依存しており、特に小型または非インストラクションで調整されたモデルではスケーラビリティを制限している。
PMPO(Probabilistic Metric Prompt Optimization)は,トークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として活用する。
PMPOは、損失に対する影響をマスキングし測定することで、低品質のプロンプトセグメントを特定し、その後、ポジティブな例とネガティブな例よりも損失を最小限にして改善された変種を書き換え、選択する。
従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。
PMPOは、密に整合した損失に基づく評価戦略を通じて、教師付きタスクと嗜好ベースのタスクの両方をサポートする。
実験の結果,PMPOはBBHの平均精度が最も高く,GSM8KとAqua-RATに強く依存し,AlpacaEval 2.0の勝利率を19ポイント以上向上する。
これらの結果から,PMPOの有効性,効率性,適用性の向上が示唆された。
関連論文リスト
- Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。
モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。
予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-05-20T07:53:40Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。
LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。
実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-20T15:30:27Z) - Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。
これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。
本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-15T15:14:22Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。