Fugu-MT 論文翻訳(概要): PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models

論文の概要: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models

arxiv url: http://arxiv.org/abs/2505.16307v1
Date: Thu, 22 May 2025 06:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.104088
Title: PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models
Title（参考訳）: PMPO:小規模および大規模言語モデルに対する確率論的メトリックプロンプト最適化
Authors: Chenzhuo Zhao, Ziqian Liu, Xingda Wang, Junting Lu, Chaoyi Ruan,
Abstract要約: PMPOはトークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として利用するプロンプトを洗練するフレームワークである。従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。実験の結果、PMPOはモデルのサイズやタスクにまたがる先行メソッドよりも一貫して優れています。
参考スコア（独自算出の注目度）: 0.15146068448101743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt optimization offers a practical and broadly applicable alternative to fine-tuning for improving large language model (LLM) performance. However, existing methods often rely on costly output generation, self-critiquing abilities, or human-annotated preferences, which limit their scalability, especially for smaller or non-instruction-tuned models. We introduce PMPO (Probabilistic Metric Prompt Optimization), a unified framework that refines prompts using token-level cross-entropy loss as a direct, lightweight evaluation signal. PMPO identifies low-quality prompt segments by masking and measuring their impact on loss, then rewrites and selects improved variants by minimizing loss over positive and negative examples. Unlike prior methods, it requires no output sampling or human evaluation during optimization, relying only on forward passes and log-likelihoods. PMPO supports both supervised and preference-based tasks through a closely aligned loss-based evaluation strategy. Experiments show that PMPO consistently outperforms prior methods across model sizes and tasks: it achieves the highest average accuracy on BBH, performs strongly on GSM8K and AQUA-RAT, and improves AlpacaEval 2.0 win rates by over 19 points. These results highlight PMPO's effectiveness, efficiency, and broad applicability.
Abstract（参考訳）: Prompt最適化は、大規模言語モデル(LLM)の性能を改善するための微調整に代わる実用的で広く適用可能な代替手段を提供する。しかし、既存の手法はコストのかかる出力生成、自己評価能力、人間による注釈付けの好みに依存しており、特に小型または非インストラクションで調整されたモデルではスケーラビリティを制限している。 PMPO(Probabilistic Metric Prompt Optimization)は,トークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として活用する。 PMPOは、損失に対する影響をマスキングし測定することで、低品質のプロンプトセグメントを特定し、その後、ポジティブな例とネガティブな例よりも損失を最小限にして改善された変種を書き換え、選択する。従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。 PMPOは、密に整合した損失に基づく評価戦略を通じて、教師付きタスクと嗜好ベースのタスクの両方をサポートする。実験の結果,PMPOはBBHの平均精度が最も高く,GSM8KとAqua-RATに強く依存し,AlpacaEval 2.0の勝利率を19ポイント以上向上する。これらの結果から,PMPOの有効性,効率性,適用性の向上が示唆された。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-05-20T07:53:40Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。 LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-20T15:30:27Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文参考訳（メタデータ） (2024-10-15T15:14:22Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。