論文の概要: RewardRank: Optimizing True Learning-to-Rank Utility
- arxiv url: http://arxiv.org/abs/2508.14180v2
- Date: Fri, 17 Oct 2025 21:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.31737
- Title: RewardRank: Optimizing True Learning-to-Rank Utility
- Title(参考訳): RewardRank: 真の学習から学習へのユーティリティを最適化する
- Authors: Gaurav Bhatt, Kiran Koshy Thekumparampil, Tanmay Gangwani, Tesi Xiao, Leonid Sigal,
- Abstract要約: 本稿では,RewardRankを紹介した。
この結果から, 対実的ユーティリティの直接最適化として, 学習からランクへの変換が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 28.662272762911325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional ranking systems optimize offline proxy objectives that rely on oversimplified assumptions about user behavior, often neglecting factors such as position bias and item diversity. Consequently, these models fail to improve true counterfactual utilities such as such as click-through rate or purchase probability, when evaluated in online A/B tests. We introduce RewardRank, a data-driven learning-to-rank (LTR) framework for counterfactual utility maximization. RewardRank first learns a reward model that predicts the utility of any ranking directly from logged user interactions, and then trains a ranker to maximize this reward using a differentiable soft permutation operator. To enable rigorous and reproducible evaluation, we further propose two benchmark suites: (i) Parametric Oracle Evaluation (PO-Eval), which employs an open-source click model as a counterfactual oracle on the Baidu-ULTR dataset, and (ii) LLM-as-User Evaluation (LAU-Eval), which simulates realistic user behavior via large language models on the Amazon-KDD-Cup dataset. RewardRank achieves the highest counterfactual utility across both benchmarks and demonstrates that optimizing classical metrics such as NDCG is sub-optimal for maximizing true user utility. Finally, using real user feedback from the Baidu-ULTR dataset, RewardRank establishes a new state of the art in offline relevance performance. Overall, our results show that learning-to-rank can be reformulated as direct optimization of counterfactual utility, achieved in a purely data-driven manner without relying on explicit modeling assumptions such as position bias. Our code is available at: $https://github.com/GauravBh1010tt/RewardRank$
- Abstract(参考訳): 従来のランキングシステムは、ユーザの振る舞いに関する過度に単純化された仮定に依存する、オフラインプロキシの目的を最適化する。
これらのモデルは、オンラインA/Bテストで評価した場合、クリックスルー率や購入確率などの真の反ファクトユーティリティを改善できない。
本稿では,データ駆動型LTR(Learning-to-rank)フレームワークであるRewardRankを紹介した。
RewardRank氏はまず、ログ化されたユーザインタラクションから直接ランキングの有効性を予測した報酬モデルを学び、その後、異なるソフトな置換演算子を使用して、報酬を最大化するようにランク付けする。
厳密で再現可能な評価を可能にするために、さらに2つのベンチマークスイートを提案する。
一 Baidu-ULTRデータセット上の反実的オラクルとしてオープンソースクリックモデルを利用するパラメトリックオラクル評価(PO-Eval)及び
(ii) LLM-as-User Evaluation (LAU-Eval) は,Amazon-KDD-Cupデータセット上の大規模言語モデルを通じて,現実的なユーザ動作をシミュレートする。
RewardRankは両方のベンチマークで最高の反ファクトユーティリティを実現し、NDCGのような古典的メトリクスの最適化が真のユーザユーティリティを最大化するためのサブ最適であることを実証している。
最後に、Baidu-ULTRデータセットからの実際のユーザフィードバックを使用して、RewardRankは、オフライン関連パフォーマンスにおいて、新たな最先端技術を確立する。
以上の結果から,学習からランクへの変換は,位置バイアスなどの明示的なモデリング仮定に頼ることなく,純粋にデータ駆動型で達成できると考えられる。
私たちのコードは、https://github.com/GauravBh1010tt/RewardRank$で利用可能です。
関連論文リスト
- RankList -- A Listwise Preference Learning Framework for Predicting Subjective Preferences [66.76322360727809]
RankNetを構造化されたリストレベルの監視に一般化するリストワイズ選好学習フレームワークである RankList を提案する。
我々の定式化は確率的枠組みの中で局所的および非局所的ランキング制約を明示的にモデル化する。
実験は多種多様性にまたがる手法の優越性を実証した。
論文 参考訳(メタデータ) (2025-08-13T13:59:41Z) - Unbiased Learning to Rank with Query-Level Click Propensity Estimation: Beyond Pointwise Observation and Relevance [74.43264459255121]
現実のシナリオでは、ユーザーは複数の関連するオプションを調べた後、1つまたは2つの結果だけをクリックします。
本稿では,ユーザが異なる検索結果リストをクリックする確率を捉えるために,クエリレベルのクリック確率モデルを提案する。
本手法では,2次元逆重み付け機構を導入し,相対飽和度と位置偏差に対処する。
論文 参考訳(メタデータ) (2025-02-17T03:55:51Z) - Adaptively Learning to Select-Rank in Online Platforms [34.258659206323664]
本研究は、異種ユーザの候補プールからアイテムを適応的にランク付けすることの課題に対処する。
本研究では,多様なユーザの好みや項目位置の影響を考慮に入れたユーザ応答モデルを構築した。
シミュレーションと実世界の両方のデータセットで実施された実験は、アルゴリズムがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-07T15:33:48Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Replace Scoring with Arrangement: A Contextual Set-to-Arrangement
Framework for Learning-to-Rank [40.81502990315285]
ラーニング・トゥ・ランク(Learning-to-rank)は、トップNレコメンデーションタスクの中核的なテクニックであり、理想的なランク付けはアイテムからアレンジへのマッピングである。
既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。
本稿では,個別のスコアリングやソートを必要とせずに,候補項目の順列を直接生成する新しいフレームワークであるSet-To-Arrangement Ranking (STARank)を提案する。
論文 参考訳(メタデータ) (2023-08-05T12:22:26Z) - Attention Weighted Mixture of Experts with Contrastive Learning for
Personalized Ranking in E-commerce [21.7796124109]
本稿では,個人格付けのためのコントラスト学習を伴うAW-MoE(Attention Weighted Mixture of Experts)を提案する。
AW-MoEはJDのeコマース検索エンジンでうまく展開されている。
論文 参考訳(メタデータ) (2023-06-08T07:59:08Z) - Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。
本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。
良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文 参考訳(メタデータ) (2022-03-05T10:22:44Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。