論文の概要: Learning Neural Ranking Models Online from Implicit User Feedback
- arxiv url: http://arxiv.org/abs/2201.06658v1
- Date: Mon, 17 Jan 2022 23:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:32:28.894290
- Title: Learning Neural Ranking Models Online from Implicit User Feedback
- Title(参考訳): 暗黙のユーザフィードバックからオンラインのニューラルネットワークランキングモデルを学ぶ
- Authors: Yiling Jia, Hongning Wang
- Abstract要約: 我々は,ユーザの暗黙のフィードバック(クリックなど)から,リアルタイムで収集したニューラルネットワークのランキングモデルを学ぶことを提案する。
RankNetとLambdaRankに注力しています。
- 参考スコア(独自算出の注目度): 40.40829575021796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing online learning to rank (OL2R) solutions are limited to linear
models, which are incompetent to capture possible non-linear relations between
queries and documents. In this work, to unleash the power of representation
learning in OL2R, we propose to directly learn a neural ranking model from
users' implicit feedback (e.g., clicks) collected on the fly. We focus on
RankNet and LambdaRank, due to their great empirical success and wide adoption
in offline settings, and control the notorious explore-exploit trade-off based
on the convergence analysis of neural networks using neural tangent kernel.
Specifically, in each round of result serving, exploration is only performed on
document pairs where the predicted rank order between the two documents is
uncertain; otherwise, the ranker's predicted order will be followed in result
ranking. We prove that under standard assumptions our OL2R solution achieves a
gap-dependent upper regret bound of $O(\log^2(T))$, in which the regret is
defined on the total number of mis-ordered pairs over $T$ rounds. Comparisons
against an extensive set of state-of-the-art OL2R baselines on two public
learning to rank benchmark datasets demonstrate the effectiveness of the
proposed solution.
- Abstract(参考訳): 既存のオンライン学習 to rank (OL2R) ソリューションは、クエリとドキュメント間の非線形関係をキャプチャする能力のない線形モデルに限られている。
本研究では,OL2Rにおける表現学習の力を解き放つために,ユーザの暗黙のフィードバック(クリックなど)からニューラルネットワークのランキングモデルを直接学習することを提案する。
RankNetとLambdaRankは、実験的な成功とオフライン設定の広範な採用により、ニューラルネットワークの収束解析に基づいて、悪名高い探索と露見のトレードオフを制御しています。
具体的には、2つの文書の間で予測されたランク順が不確実な文書ペア上でのみ探索が行われ、そうでなければ、ランクの予測順序が結果としてランク付けされる。
標準仮定の下では、OL2R の解がギャップ依存上後悔境界 $O(\log^2(T))$ を達成し、その後悔は、$T$ 以上の不順序対の総数で定義される。
ベンチマークデータセットをランク付けするための2つの公開学習に基づく、最先端のOL2Rベースラインの広範なセットとの比較は、提案ソリューションの有効性を示している。
関連論文リスト
- Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed
Graph Neural Networks [68.61934077627085]
本稿では,グラフ埋め込みを学習可能なGNNと互換性のあるモデリングフレームワークであるGNNRankを紹介する。
既存の手法と比較して,我々の手法が競争力があり,しばしば優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-02-01T04:19:50Z) - Calibrating Explore-Exploit Trade-off for Fair Online Learning to Rank [38.28889079095716]
オンライン・ラーニング・ツー・ランク(OL2R)は近年,大きな研究関心を集めている。
OL2Rにおけるグループ露光によって定義される公平性を実現するための一般的な枠組みを提案する。
特に、モデルが関連性フィードバックの結果の集合を探索する場合、ランダムな置換のサブセットにその探索を限定する。
論文 参考訳(メタデータ) (2021-11-01T07:22:05Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - PairRank: Online Pairwise Learning to Rank by Divide-and-Conquer [35.199462901346706]
オンラインモデルランキングのペアワイズ学習を推定することを提案する。
各ラウンドにおいて、候補文書を分割して、推定された対位順に対するモデルの信頼度に応じてランク付けする。
オンラインソリューションの理論的収束と期待されたランキングパフォーマンスを結びつける、誤った順序付けされたペアの数で直接定義された後悔が証明される。
論文 参考訳(メタデータ) (2021-02-28T01:16:55Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z) - Unbiased Learning to Rank: Online or Offline? [28.431648823968278]
偏りのあるユーザフィードバックでランク付けすることを学ぶことで、偏りのないランキングモデルを得る方法が、IRにとって重要な研究課題である。
既存の非バイアス付き学習のランク付けの研究は、ログデータを用いた非バイアス付き学習アルゴリズムの研究と、リアルタイムユーザインタラクションによる非バイアス付きパラメータ推定の研究という、2つのグループに大別することができる。
本稿では,非偏見学習をランク付けするタスクを形式化し,オフライン非偏見学習とオンライン学習をランク付けするための既存のアルゴリズムが,同じコインの両面にのみ存在することを示す。
論文 参考訳(メタデータ) (2020-04-28T15:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。