論文の概要: RewardRank: Optimizing True Learning-to-Rank Utility
- arxiv url: http://arxiv.org/abs/2508.14180v1
- Date: Tue, 19 Aug 2025 18:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.239231
- Title: RewardRank: Optimizing True Learning-to-Rank Utility
- Title(参考訳): RewardRank: 真の学習から学習へのユーティリティを最適化する
- Authors: Gaurav Bhatt, Kiran Koshy Thekumparampil, Tanmay Gangwani, Tesi Xiao, Leonid Sigal,
- Abstract要約: 本稿では,反実的報酬学習によるユーザ行動モデリングのためのデータ駆動型フレームワークを提案する。
我々の方法であるRewardRankは、まず、アイテム置換全体のユーザエンゲージメントを推定するために、深いユーティリティモデルを訓練する。
次に、分類ポリシーを最適化し、微分可能なソフト置換演算子による予測効用を最大化する。
- 参考スコア(独自算出の注目度): 32.643938513474666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional ranking systems rely on proxy loss functions that assume simplistic user behavior, such as users preferring a rank list where items are sorted by hand-crafted relevance. However, real-world user interactions are influenced by complex behavioral biases, including position bias, brand affinity, decoy effects, and similarity aversion, which these objectives fail to capture. As a result, models trained on such losses often misalign with actual user utility, such as the probability of any click or purchase across the ranked list. In this work, we propose a data-driven framework for modeling user behavior through counterfactual reward learning. Our method, RewardRank, first trains a deep utility model to estimate user engagement for entire item permutations using logged data. Then, a ranking policy is optimized to maximize predicted utility via differentiable soft permutation operators, enabling end-to-end training over the space of factual and counterfactual rankings. To address the challenge of evaluation without ground-truth for unseen permutations, we introduce two automated protocols: (i) $\textit{KD-Eval}$, using a position-aware oracle for counterfactual reward estimation, and (ii) $\textit{LLM-Eval}$, which simulates user preferences via large language models. Experiments on large-scale benchmarks, including Baidu-ULTR and the Amazon KDD Cup datasets, demonstrate that our approach consistently outperforms strong baselines, highlighting the effectiveness of modeling user behavior dynamics for utility-optimized ranking. Our code is available at: https://github.com/GauravBh1010tt/RewardRank
- Abstract(参考訳): 従来のランキングシステムは、手作りの関連性によってアイテムがソートされるランクリストを好むユーザなど、単純なユーザの振る舞いを仮定するプロキシ損失関数に依存している。
しかし、現実世界のユーザインタラクションは、位置バイアス、ブランド親和性、デコイ効果、類似性回避など、複雑な行動バイアスの影響を受けており、これらの目的が達成できない。
結果として、そのような損失に基づいてトレーニングされたモデルは、ランクリスト全体でクリックや購入の確率など、実際のユーザユーティリティと誤認されることが多い。
本研究では,反実的報酬学習によるユーザ行動モデリングのためのデータ駆動型フレームワークを提案する。
当社のメソッドであるRewardRankは、ログデータを用いて、アイテム置換全体のユーザエンゲージメントを推定するために、まず深いユーティリティモデルを訓練する。
次に、予測効用を微分可能なソフトな置換演算子によって最大化するようにランキングポリシーを最適化し、実数と反実数との空間におけるエンドツーエンドのトレーニングを可能にする。
未確認順列化のための基本トラストのない評価の課題に対処するために,2つの自動プロトコルを導入する。
(i) $\textit{KD-Eval}$, position-aware oracle for counterfactual reward Estimation, and
(ii) $\textit{LLM-Eval}$ 大きな言語モデルを通じてユーザの好みをシミュレートする。
Baidu-ULTRやAmazon KDD Cupデータセットを含む大規模ベンチマークの実験では、当社のアプローチが強いベースラインを一貫して上回り、ユーティリティ最適化ランキングのためのユーザ動作ダイナミクスのモデル化の有効性を強調している。
私たちのコードは、https://github.com/GauravBh1010tt/RewardRankで利用可能です。
関連論文リスト
- RankList -- A Listwise Preference Learning Framework for Predicting Subjective Preferences [66.76322360727809]
RankNetを構造化されたリストレベルの監視に一般化するリストワイズ選好学習フレームワークである RankList を提案する。
我々の定式化は確率的枠組みの中で局所的および非局所的ランキング制約を明示的にモデル化する。
実験は多種多様性にまたがる手法の優越性を実証した。
論文 参考訳(メタデータ) (2025-08-13T13:59:41Z) - Unbiased Learning to Rank with Query-Level Click Propensity Estimation: Beyond Pointwise Observation and Relevance [74.43264459255121]
現実のシナリオでは、ユーザーは複数の関連するオプションを調べた後、1つまたは2つの結果だけをクリックします。
本稿では,ユーザが異なる検索結果リストをクリックする確率を捉えるために,クエリレベルのクリック確率モデルを提案する。
本手法では,2次元逆重み付け機構を導入し,相対飽和度と位置偏差に対処する。
論文 参考訳(メタデータ) (2025-02-17T03:55:51Z) - Adaptively Learning to Select-Rank in Online Platforms [34.258659206323664]
本研究は、異種ユーザの候補プールからアイテムを適応的にランク付けすることの課題に対処する。
本研究では,多様なユーザの好みや項目位置の影響を考慮に入れたユーザ応答モデルを構築した。
シミュレーションと実世界の両方のデータセットで実施された実験は、アルゴリズムがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-07T15:33:48Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Replace Scoring with Arrangement: A Contextual Set-to-Arrangement
Framework for Learning-to-Rank [40.81502990315285]
ラーニング・トゥ・ランク(Learning-to-rank)は、トップNレコメンデーションタスクの中核的なテクニックであり、理想的なランク付けはアイテムからアレンジへのマッピングである。
既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。
本稿では,個別のスコアリングやソートを必要とせずに,候補項目の順列を直接生成する新しいフレームワークであるSet-To-Arrangement Ranking (STARank)を提案する。
論文 参考訳(メタデータ) (2023-08-05T12:22:26Z) - Attention Weighted Mixture of Experts with Contrastive Learning for
Personalized Ranking in E-commerce [21.7796124109]
本稿では,個人格付けのためのコントラスト学習を伴うAW-MoE(Attention Weighted Mixture of Experts)を提案する。
AW-MoEはJDのeコマース検索エンジンでうまく展開されている。
論文 参考訳(メタデータ) (2023-06-08T07:59:08Z) - Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。
本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。
良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文 参考訳(メタデータ) (2022-03-05T10:22:44Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。