論文の概要: Towards Two-Stage Counterfactual Learning to Rank
- arxiv url: http://arxiv.org/abs/2506.20854v1
- Date: Wed, 25 Jun 2025 22:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.901408
- Title: Towards Two-Stage Counterfactual Learning to Rank
- Title(参考訳): 2段階の対実的学習のランク付けに向けて
- Authors: Shashank Gupta, Yiming Liao, Maarten de Rijke,
- Abstract要約: ランク付けのためのカウンターファクトラーニングは、ユーザのインタラクションからランク付けポリシーを学ぶことを目的としている。
現実のアプリケーションでは、候補文書セットは数百万の順序で行われ、単一のステージのランキングポリシーを非現実的にしている。
本稿では,2段階間の相互作用を考慮した2段階CLTR推定器を提案する。
- 参考スコア(独自算出の注目度): 50.51916012823433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual learning to rank (CLTR) aims to learn a ranking policy from user interactions while correcting for the inherent biases in interaction data, such as position bias. Existing CLTR methods assume a single ranking policy that selects top-K ranking from the entire document candidate set. In real-world applications, the candidate document set is on the order of millions, making a single-stage ranking policy impractical. In order to scale to millions of documents, real-world ranking systems are designed in a two-stage fashion, with a candidate generator followed by a ranker. The existing CLTR method for a two-stage offline ranking system only considers the top-1 ranking set-up and only focuses on training the candidate generator, with the ranker fixed. A CLTR method for training both the ranker and candidate generator jointly is missing from the existing literature. In this paper, we propose a two-stage CLTR estimator that considers the interaction between the two stages and estimates the joint value of the two policies offline. In addition, we propose a novel joint optimization method to train the candidate and ranker policies, respectively. To the best of our knowledge, we are the first to propose a CLTR estimator and learning method for two-stage ranking. Experimental results on a semi-synthetic benchmark demonstrate the effectiveness of the proposed joint CLTR method over baselines.
- Abstract(参考訳): CLTR(Counterfactual Learning to rank)は、位置バイアスなどのインタラクションデータに固有のバイアスを補正しながら、ユーザインタラクションからランキングポリシーを学習することを目的としている。
既存のCLTRメソッドは、文書候補セット全体からトップKランキングを選択する単一のランキングポリシーを仮定する。
現実のアプリケーションでは、候補文書セットは数百万の順序で行われ、単一のステージのランキングポリシーを非現実的にしている。
数百万の文書にスケールするために、現実世界のランキングシステムは2段階の方法で設計され、候補ジェネレータが続いてランク付けされる。
既存の2段階のオフラインランキングシステムにおけるCLTR法では、上位1のランキング設定のみを考慮し、ローダを固定した候補ジェネレータのトレーニングのみに焦点を当てている。
既存の文献からランキングと候補ジェネレータを併用するCLTR法が欠落している。
本稿では,2段階間の相互作用を考慮した2段階CLTR推定器を提案する。
さらに,候補とランク付けポリシーをそれぞれ学習するための新しい共同最適化手法を提案する。
我々の知る限り、我々は二段階ランク付けのためのCLTR推定と学習手法を最初に提案する。
半合成ベンチマークによる実験結果から, ベースライン上でのCLTR法の有効性が示された。
関連論文リスト
- Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - A Self-boosted Framework for Calibrated Ranking [7.4291851609176645]
キャリブレーションランキング(Calibrated Ranking)は、正確なランキング品質とキャリブレーションされた確率予測を同時に追求するスケールキャリブレーションランキングシステムである。
それまでの方法は、ランキングの損失を計算するために、単一のミニバッチ内に完全な候補リストを集約する必要があった。
校正ランク付けのための自己ブーストフレームワーク(SBCR)を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:00:49Z) - Replace Scoring with Arrangement: A Contextual Set-to-Arrangement
Framework for Learning-to-Rank [40.81502990315285]
ラーニング・トゥ・ランク(Learning-to-rank)は、トップNレコメンデーションタスクの中核的なテクニックであり、理想的なランク付けはアイテムからアレンジへのマッピングである。
既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。
本稿では,個別のスコアリングやソートを必要とせずに,候補項目の順列を直接生成する新しいフレームワークであるSet-To-Arrangement Ranking (STARank)を提案する。
論文 参考訳(メタデータ) (2023-08-05T12:22:26Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - PairRank: Online Pairwise Learning to Rank by Divide-and-Conquer [35.199462901346706]
オンラインモデルランキングのペアワイズ学習を推定することを提案する。
各ラウンドにおいて、候補文書を分割して、推定された対位順に対するモデルの信頼度に応じてランク付けする。
オンラインソリューションの理論的収束と期待されたランキングパフォーマンスを結びつける、誤った順序付けされたペアの数で直接定義された後悔が証明される。
論文 参考訳(メタデータ) (2021-02-28T01:16:55Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。