論文の概要: Learning to Rank in the Position Based Model with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2004.13106v1
- Date: Mon, 27 Apr 2020 19:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:35:18.288608
- Title: Learning to Rank in the Position Based Model with Bandit Feedback
- Title(参考訳): 帯域フィードバックを用いた位置ベースモデルのランク付け学習
- Authors: Beyza Ermis, Patrick Ernst, Yannik Stein, Giovanni Zappella
- Abstract要約: 本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。
生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
- 参考スコア(独自算出の注目度): 3.9121134770873742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalization is a crucial aspect of many online experiences. In
particular, content ranking is often a key component in delivering
sophisticated personalization results. Commonly, supervised learning-to-rank
methods are applied, which suffer from bias introduced during data collection
by production systems in charge of producing the ranking. To compensate for
this problem, we leverage contextual multi-armed bandits. We propose novel
extensions of two well-known algorithms viz. LinUCB and Linear Thompson
Sampling to the ranking use-case. To account for the biases in a production
environment, we employ the position-based click model. Finally, we show the
validity of the proposed algorithms by conducting extensive offline experiments
on synthetic datasets as well as customer facing online A/B experiments.
- Abstract(参考訳): パーソナライズは多くのオンライン体験において重要な側面である。
特に、コンテンツランキングは、洗練されたパーソナライズ結果を提供する上で重要な要素であることが多い。
一般的には、ランキング作成を担当するプロダクションシステムによるデータ収集中に引き起こされるバイアスに苦しむ教師付き学習からランクへの方法が適用される。
この問題を補うために,コンテキスト型マルチアームバンディットを利用する。
我々は2つのよく知られたアルゴリズムの新たな拡張を提案する。
linucb と linear thompson sampling to the ranking use-case の略。
生産環境におけるバイアスを考慮するために, 位置ベースのクリックモデルを用いる。
最後に,オンラインA/B実験に直面する顧客だけでなく,合成データセットに対する広範囲なオフライン実験を行うことにより,提案アルゴリズムの有効性を示す。
関連論文リスト
- Contextual Dual Learning Algorithm with Listwise Distillation for Unbiased Learning to Rank [26.69630281310365]
Unbiased Learning to Rank (ULTR)は、バイアスのないユーザのフィードバック(例えばクリック)を活用して、バイアスのないランキングモデルを最適化することを目的としている。
位置バイアスと文脈バイアスの両方に対処するため,CDLA-LD(Contextual Dual Learning Algorithm)を提案する。
論文 参考訳(メタデータ) (2024-08-19T09:13:52Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Unbiased Learning to Rank with Biased Continuous Feedback [5.561943356123711]
雑音フィードバックに基づいて相対関係を正確にモデル化するために,非バイアス学習 to ランク(LTR)アルゴリズムを検証した。
パーソナライズされた高品質なレコメンデーション結果を提供するために、レコメンダシステムはカテゴリと継続的なバイアスフィードバックの両方をモデルにする必要があります。
位置バイアス、信頼バイアス、ユーザ関係を明確に区別するために、ペアワイズ信頼バイアスを導入します。
Tencent Newsの公開ベンチマークデータセットと大規模レコメンデータシステムの内部ライブトラフィックの実験結果は、連続ラベルに対して優れた結果を示している。
論文 参考訳(メタデータ) (2023-03-08T02:14:08Z) - Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。
本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。
良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文 参考訳(メタデータ) (2022-03-05T10:22:44Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Fairness-Aware Online Personalization [16.320648868892526]
個人格付けを含むオンラインパーソナライズ設定における公平性について検討する。
最初に、オンラインパーソナライゼーションが、ユーザが応答に偏っている場合、モデルが不公平に行動することを学ぶことを実証する。
次に、公正な制約の下でパーソナライズされたモデルを学習する問題を定式化し、機械学習におけるバイアスを軽減するための正規化に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:16:17Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。