論文の概要: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16307v2
- Date: Thu, 18 Sep 2025 16:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 15:20:14.622439
- Title: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models
- Title(参考訳): PMPO:小規模および大規模言語モデルに対する確率論的メトリックプロンプト最適化
- Authors: Chenzhuo Zhao, Ziqian Liu, Xinda Wang, Junting Lu, Chaoyi Ruan,
- Abstract要約: PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
- 参考スコア(独自算出の注目度): 1.6816171955882597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt optimization is a practical and widely applicable alternative to fine tuning for improving large language model performance. Yet many existing methods evaluate candidate prompts by sampling full outputs, often coupled with self critique or human annotated preferences, which limits scalability, especially for smaller models or models that are not instruction tuned. We present PMPO (Probabilistic Metric Prompt Optimization), a unified framework that uses token level cross entropy as a direct, lightweight evaluation signal. PMPO locates low quality prompt segments via a masking based analysis and iteratively rewrites them to propose improved variants. Crucially, during evaluation, PMPO selects among variants by minimizing loss in a single forward pass, eliminating output sampling and human or judge based scoring for selection while still using standard generation only to propose rewrites. This unified, loss based strategy supports both supervised and preference based tasks. Across model sizes and datasets, PMPO outperforms prior prompt optimizers: it achieves the highest average accuracy on BBH, performs strongly on GSM8K and AQUA RAT, and raises AlpacaEval 2.0 win rates by over 19 points. These results demonstrate PMPO's effectiveness, efficiency, and broad applicability.
- Abstract(参考訳): プロンプト最適化は、大規模言語モデルの性能向上のための微調整の代替として実用的で広く応用されている。
しかし、既存の多くのメソッドは、完全な出力をサンプリングすることで候補のプロンプトを評価し、しばしば自己批判や人間の注釈付けされた好みと結合し、スケーラビリティを制限する。
本稿では,トークンレベルのクロスエントロピーを直接的かつ軽量な評価信号として利用する統一フレームワークPMPOを提案する。
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
PMPOは評価において、単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、標準生成のみを使用しながら、選択のための人または判断に基づくスコアを除去し、変種の中から選択する。
この統合された損失ベースの戦略は、教師付きタスクと嗜好ベースのタスクの両方をサポートする。
PMPOは従来のプロンプトオプティマイザよりも優れており、BBHで最高の平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上引き上げている。
これらの結果から,PMPOの有効性,効率,適用性が示された。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文 参考訳(メタデータ) (2025-06-08T10:26:09Z) - Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。
モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。
予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-05-20T07:53:40Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。
LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。
実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-20T15:30:27Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。
これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。
本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-15T15:14:22Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。