論文の概要: GoalRank: Group-Relative Optimization for a Large Ranking Model
- arxiv url: http://arxiv.org/abs/2509.22046v1
- Date: Fri, 26 Sep 2025 08:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.298225
- Title: GoalRank: Group-Relative Optimization for a Large Ranking Model
- Title(参考訳): GoalRank: 大きなランク付けモデルのグループ相対最適化
- Authors: Kaike Zhang, Xiaobei Wang, Shuchang Liu, Hailan Yang, Xiang Li, Lantao Hu, Han Li, Qi Cao, Fei Sun, Kun Gai,
- Abstract要約: 我々は、常に最適なランキングポリシーに対する厳密な近似誤差を達成するジェネレータのみのモデルが存在すると論じる。
ジェネレータのみのランキングフレームワークであるGoalRankを提案する。
- 参考スコア(独自算出の注目度): 28.848650157261385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream ranking approaches typically follow a Generator-Evaluator two-stage paradigm, where a generator produces candidate lists and an evaluator selects the best one. Recent work has attempted to enhance performance by expanding the number of candidate lists, for example, through multi-generator settings. However, ranking involves selecting a recommendation list from a combinatorially large space. Simply enlarging the candidate set remains ineffective, and performance gains quickly saturate. At the same time, recent advances in large recommendation models have shown that end-to-end one-stage models can achieve promising performance with the expectation of scaling laws. Motivated by this, we revisit ranking from a generator-only one-stage perspective. We theoretically prove that, for any (finite Multi-)Generator-Evaluator model, there always exists a generator-only model that achieves strictly smaller approximation error to the optimal ranking policy, while also enjoying scaling laws as its size increases. Building on this result, we derive an evidence upper bound of the one-stage optimization objective, from which we find that one can leverage a reward model trained on real user feedback to construct a reference policy in a group-relative manner. This reference policy serves as a practical surrogate of the optimal policy, enabling effective training of a large generator-only ranker. Based on these insights, we propose GoalRank, a generator-only ranking framework. Extensive offline experiments on public benchmarks and large-scale online A/B tests demonstrate that GoalRank consistently outperforms state-of-the-art methods.
- Abstract(参考訳): メインストリームのランク付けアプローチは通常、ジェネレータ-評価器の2段階のパラダイムに従っており、ジェネレータが候補リストを生成し、評価器が最良の候補を選択する。
最近の研究は、例えば、マルチジェネレータ設定を通じて、候補リストの数を拡張することで、パフォーマンスを向上しようと試みている。
しかし、ランキングには、組合せ的に大きな空間からレコメンデーションリストを選択することが含まれる。
単純に候補集合を拡大することは効果が無く、性能は急速に飽和する。
同時に、大規模レコメンデーションモデルの最近の進歩により、エンド・ツー・エンドのワンステージモデルがスケーリング法則を期待して有望な性能を達成できることが示されている。
これに触発された私たちは、ジェネレータのみのワンステージ視点からランキングを再考する。
理論的には、任意の(有限多重)ジェネレータ-評価器モデルに対して、最適なランク付けポリシーに厳密に小さい近似誤差を達成できるジェネレータのみのモデルが存在すると同時に、そのサイズが大きくなるにつれてスケーリング法則を楽しむことを証明している。
この結果に基づいて,1段階最適化目標の上限以上のエビデンスを導出し,実際のユーザフィードバックに基づいてトレーニングされた報酬モデルを利用して,グループ相対的な参照ポリシを構築することができることを示した。
この基準ポリシは最適なポリシの実践的なサロゲートとして機能し、大規模なジェネレータのみのランサーの効果的なトレーニングを可能にする。
これらの知見に基づいて,ジェネレータのみのランキングフレームワークであるGoalRankを提案する。
公開ベンチマークと大規模オンラインA/Bテストに関する大規模なオフライン実験は、GoalRankが一貫して最先端のメソッドを上回っていることを示している。
関連論文リスト
- Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - Comprehensive List Generation for Multi-Generator Reranking [19.54795824992667]
マルチジェネレータフレームワークにより,より効率的かつ効率的なリストの提案が可能であることを示す。
ユーザの好みを同時に調整し、リストの包括性を最大化するポリシーを学習する自動補完ジェネレータファイリングフレームワークを設計する。
論文 参考訳(メタデータ) (2025-04-22T06:34:57Z) - NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems [13.848284819312953]
ジェネレーティブリジェネレータの近隣リストモデルは、空間におけるジェネレータのパフォーマンスを改善することを目的としている。
本稿では,既存のリストから任意の隣接リストへ柔軟にジャンプ可能な,サンプリングに基づく非自己回帰生成手法を提案する。
NLGRの有効性を実証し,NLGRをMeituanフードデリバリープラットフォームに導入することに成功している。
論文 参考訳(メタデータ) (2025-02-10T02:06:17Z) - Non-autoregressive Generative Models for Reranking Recommendation [9.854541524740549]
推薦システムでは、項目間のリスト内相関をモデル化することで、リランクが重要な役割を果たす。
本研究では, 効率と効率性を高めるために, 提案するレコメンデーション(NAR4Rec)の再評価のための非自己回帰生成モデルを提案する。
NAR4Recは、毎日3億人のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされている。
論文 参考訳(メタデータ) (2024-02-10T03:21:13Z) - Dual Student Networks for Data-Free Model Stealing [79.67498803845059]
主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、多様なトレーニングサンプルを生成することである。
そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。
我々の新しい最適化フレームワークは、目標モデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。
論文 参考訳(メタデータ) (2023-09-18T18:11:31Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Joint Generator-Ranker Learning for Natural Language Generation [99.16268050116717]
JGRは、ジェネレータとローダを単一のフレームワークに統合する、新しいジョイントトレーニングアルゴリズムである。
ジェネレータとランク装置を反復的に更新することにより、JGRは学習を効果的に調和させ、共同で品質を高めることができる。
論文 参考訳(メタデータ) (2022-06-28T12:58:30Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。