Fugu-MT 論文翻訳(概要): Learning k-Determinantal Point Processes for Personalized Ranking

論文の概要: Learning k-Determinantal Point Processes for Personalized Ranking

arxiv url: http://arxiv.org/abs/2406.15983v1
Date: Sun, 23 Jun 2024 02:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:20:28.678533
Title: Learning k-Determinantal Point Processes for Personalized Ranking
Title（参考訳）: 個人格付けのためのk-決定点過程の学習
Authors: Yuli Liu, Christian Walder, Lexing Xie,
Abstract要約: パーソナライズされたランキングのセット確率比較に基づく新しい最適化基準LkPを提案する。 LkPは広く適用でき、既存のレコメンデーションモデルに適用すると、パフォーマンスも大幅に向上する。
参考スコア（独自算出の注目度）: 13.677246792673564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The key to personalized recommendation is to predict a personalized ranking on a catalog of items by modeling the user's preferences. There are many personalized ranking approaches for item recommendation from implicit feedback like Bayesian Personalized Ranking (BPR) and listwise ranking. Despite these methods have shown performance benefits, there are still limitations affecting recommendation performance. First, none of them directly optimize ranking of sets, causing inadequate exploitation of correlations among multiple items. Second, the diversity aspect of recommendations is insufficiently addressed compared to relevance. In this work, we present a new optimization criterion LkP based on set probability comparison for personalized ranking that moves beyond traditional ranking-based methods. It formalizes set-level relevance and diversity ranking comparisons through a Determinantal Point Process (DPP) kernel decomposition. To confer ranking interpretability to the DPP set probabilities and prioritize the practicality of LkP, we condition the standard DPP on the cardinality k of the DPP-distributed set, known as k-DPP, a less-explored extension of DPP. The generic stochastic gradient descent based technique can be directly applied to optimizing models that employ LkP. We implement LkP in the context of both Matrix Factorization (MF) and neural networks approaches, on three real-world datasets, obtaining improved relevance and diversity performances. LkP is broadly applicable, and when applied to existing recommendation models it also yields strong performance improvements, suggesting that LkP holds significant value to the field of recommender systems.
Abstract（参考訳）: パーソナライズされたレコメンデーションの鍵は、ユーザの好みをモデル化することで、アイテムのカタログ上のパーソナライズされたランキングを予測することである。 Bayesian Personalized Ranking (BPR)やListwise Rankingといった暗黙のフィードバックから、アイテムレコメンデーションのためのパーソナライズされたランキングアプローチが多数存在する。これらのメソッドはパフォーマンス上のメリットを示しているが、推奨パフォーマンスに影響を与える制限がある。まず、それらのどれも集合のランクを直接最適化しておらず、複数の項目間の相関が不十分である。第2に、レコメンデーションの多様性の側面は、関連性に比較して不十分である。本研究では,従来のランク付け手法を超越したパーソナライズされたランキングに対して,設定確率比較に基づく新しい最適化基準LkPを提案する。これは、DPP(Determinantal Point Process)カーネルの分解によって、設定レベルの関連性と多様性のランキングの比較を定式化する。 DPP集合の確率にランク付けし、LkPの実用性を優先するために、標準 DPP を DPP のあまり探索されていない拡張である k-DPP として知られる DPP 分布集合の濃度 k に設定する。一般確率勾配降下に基づく手法は、LkPを用いたモデルの最適化に直接適用することができる。行列因子化(MF)とニューラルネットワークアプローチの両方の文脈において、LkPを実世界の3つのデータセット上に実装し、妥当性と多様性のパフォーマンスを改善した。 LkPは広く適用可能であり、既存のレコメンデーションモデルに適用すると、パフォーマンスも大幅に向上し、レコメンデーションシステムの分野においてLkPが大きな価値を持っていることを示唆している。

関連論文リスト

In-context Ranking Preference Optimization [48.36442791241395]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。 IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文参考訳（メタデータ） (2025-04-21T23:06:12Z)
Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization [49.88778604259453]
我々は,大言語モデル (LLM) をフェデレート学習 (FL) 設定で微調整する方法として,KTO (Kahneman-Tversky Optimization) を評価した。オリジナルの(KTOO)と再配布された(KTOR)構成の両方において、KTOはすべてのベンチマークで一貫してDPOを上回っている。これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
論文参考訳（メタデータ） (2025-02-20T01:44:21Z)
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文参考訳（メタデータ） (2024-12-19T04:31:56Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。 PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文参考訳（メタデータ） (2024-10-17T01:02:04Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。 OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文参考訳（メタデータ） (2024-06-13T15:16:11Z)
Adaptive Neural Ranking Framework: Toward Maximized Business Goal for Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文参考訳（メタデータ） (2023-10-16T14:43:02Z)
Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文参考訳（メタデータ） (2023-09-30T01:23:22Z)
Probabilistic Permutation Graph Search: Black-Box Optimization for Fairness in Ranking [53.94413894017409]
本稿では、置換グラフの概念に基づいて、置換分布を表現する新しい方法を提案する。 PLと同様に、PPGと呼ばれる分布表現は、公正性のブラックボックス最適化に利用できる。
論文参考訳（メタデータ） (2022-04-28T20:38:34Z)
Determinantal Point Process Likelihoods for Sequential Recommendation [12.206748373325972]
本稿では,DPP(Determinantal Point Process)の確率に基づく2つの新たな損失関数を提案する。提案した損失関数を実世界の3つのデータセットで実験した結果、品質と多様性の指標の両方において、最先端のシーケンシャルなレコメンデーション手法よりも顕著な改善が見られた。
論文参考訳（メタデータ） (2022-04-25T11:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。