論文の概要: Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.23540v1
- Date: Thu, 29 May 2025 15:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.934218
- Title: Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
- Title(参考訳): 拡張LDM推論のための確率整合性推論最適化
- Authors: Yunqiao Yang, Houxing Ren, Zimu Lu, Ke Wang, Weikang Shi, Aojun Zhou, Junting Pan, Mingjie Zhan, Hongsheng Li,
- Abstract要約: 本稿では、選好選択のための2つの定量的指標を確立する新しいフレームワークを提案する。
私たちのコードはhttps://github.com/YunqiaoYang/PCPO.comで公開されています。
- 参考スコア(独自算出の注目度): 36.74546743563837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in preference optimization have demonstrated significant potential for improving mathematical reasoning capabilities in large language models (LLMs). While current approaches leverage high-quality pairwise preference data through outcome-based criteria like answer correctness or consistency, they fundamentally neglect the internal logical coherence of responses. To overcome this, we propose Probability-Consistent Preference Optimization (PCPO), a novel framework that establishes dual quantitative metrics for preference selection: (1) surface-level answer correctness and (2) intrinsic token-level probability consistency across responses. Extensive experiments show that our PCPO consistently outperforms existing outcome-only criterion approaches across a diverse range of LLMs and benchmarks. Our code is publicly available at https://github.com/YunqiaoYang/PCPO.
- Abstract(参考訳): 近年の選好最適化の進歩は、大規模言語モデル(LLM)の数学的推論能力を向上させる大きな可能性を示している。
現在のアプローチでは、回答の正しさや一貫性といった結果に基づく基準を通じて、高品質なペアワイズ選好データを活用するが、それらは、応答の内部論理的一貫性を根本的に無視する。
そこで本研究では,(1)表層回答の正しさと(2)表層トークンレベルの確率整合性を両立させる新しいフレームワークであるPCPO(Probability-Consistent Preference Optimization)を提案する。
大規模な実験の結果,PCPO は様々な LLM やベンチマークにおいて,既存の結果のみの基準法よりも常に優れていることがわかった。
私たちのコードはhttps://github.com/YunqiaoYang/PCPO.comで公開されています。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Bayesian Optimization with Conformal Prediction Sets [44.565812181545645]
コンフォーマル予測(Conformal prediction)は、不確実な定量化手法であり、不特定モデルに対してもカバレッジを保証する。
本稿では,モデルの妥当性が保証された検索空間の領域にクエリを誘導する共形ベイズ最適化を提案する。
多くの場合、クエリのカバレッジはサンプル効率を損なうことなく大幅に改善できる。
論文 参考訳(メタデータ) (2022-10-22T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。