論文の概要: K-order Ranking Preference Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00441v1
- Date: Sat, 31 May 2025 07:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.189575
- Title: K-order Ranking Preference Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルに対するK階ランク付け選好最適化
- Authors: Shihao Cai, Chongming Gao, Yang Zhang, Wentao Shi, Jizhi Zhang, Keqin Bao, Qifan Wang, Fuli Feng,
- Abstract要約: トップKランキングの一貫性を最適化することは、現実世界のアプリケーションにもっと適している、と私たちは主張する。
そこで我々は,DPOのPlanet-Luceモデルを拡張して,上位Kランクに適合させることにより,K順序ランキング最適化(KPO)を提案する。
- 参考スコア(独自算出の注目度): 43.249451587412544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To adapt large language models (LLMs) to ranking tasks, existing list-wise methods, represented by list-wise Direct Preference Optimization (DPO), focus on optimizing partial-order or full-order list ranking consistency for LLMs to enhance their ranking abilities. However, we argue that optimizing top-K ranking consistency could be more appropriate for real-world applications. There are two main reasons: (1) users are typically concerned with only the top-K results, making top-K ranking more important, and (2) tail items often lack precise feedback, making top-K ranking more reliable. Based on this, we propose K-order Ranking Preference Optimization (KPO) by extending the DPO's Plackett-Luce model to accommodate top-K rankings. Additionally, recognizing that the number of important items can vary across queries, we extend KPO to dynamically determine appropriate K for different samples and introduce a curriculum learning strategy to boost training efficiency. Extensive experiments demonstrate the effectiveness of KPO, highlighting its high sample efficiency and robustness to noise. The code is available at https://github.com/Lanyu0303/KPO.
- Abstract(参考訳): 大規模言語モデル(LLM)をランキングタスクに適応させるため、リストワイド直接選好最適化(DPO)で表される既存のリストワイドメソッドでは、LCMに対する部分順序または全順序リストランキングの整合性を最適化し、ランキング能力を高めることに重点を置いている。
しかし、我々はトップKランキングの整合性を最適化することが現実世界のアプリケーションにより適していると論じている。
主な理由は2つある: (1) ユーザは一般的にトップK結果のみに関心を持ち、トップKランキングをより重要にし、(2) テールアイテムは正確なフィードバックを欠くことが多く、トップKランキングをより信頼性の高いものにする。
そこで本研究では、DPOのPlanet-Luceモデルを拡張して、上位Kランクに適合させることにより、K次ランク付け優先度最適化(KPO)を提案する。
さらに,クエリ毎に重要な項目の数が異なることを認識し,KPOを拡張して,サンプルの適切なKを動的に決定し,学習効率を高めるためのカリキュラム学習戦略を導入する。
広範囲な実験により、KPOの有効性が示され、高い試料効率と騒音に対する頑健さが強調された。
コードはhttps://github.com/Lanyu0303/KPOで公開されている。
関連論文リスト
- In-context Ranking Preference Optimization [48.36442791241395]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Learning k-Determinantal Point Processes for Personalized Ranking [13.677246792673564]
パーソナライズされたランキングのセット確率比較に基づく新しい最適化基準LkPを提案する。
LkPは広く適用でき、既存のレコメンデーションモデルに適用すると、パフォーマンスも大幅に向上する。
論文 参考訳(メタデータ) (2024-06-23T02:24:50Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。