論文の概要: Accelerated Convergence for Counterfactual Learning to Rank
- arxiv url: http://arxiv.org/abs/2005.10615v1
- Date: Thu, 21 May 2020 12:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:02:53.986872
- Title: Accelerated Convergence for Counterfactual Learning to Rank
- Title(参考訳): ランクへの反事実学習のための加速収束
- Authors: Rolf Jagerman and Maarten de Rijke
- Abstract要約: IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
- 参考スコア(独自算出の注目度): 65.63997193915257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual Learning to Rank (LTR) algorithms learn a ranking model from
logged user interactions, often collected using a production system. Employing
such an offline learning approach has many benefits compared to an online one,
but it is challenging as user feedback often contains high levels of bias.
Unbiased LTR uses Inverse Propensity Scoring (IPS) to enable unbiased learning
from logged user interactions. One of the major difficulties in applying
Stochastic Gradient Descent (SGD) approaches to counterfactual learning
problems is the large variance introduced by the propensity weights. In this
paper we show that the convergence rate of SGD approaches with IPS-weighted
gradients suffers from the large variance introduced by the IPS weights:
convergence is slow, especially when there are large IPS weights. To overcome
this limitation, we propose a novel learning algorithm, called CounterSample,
that has provably better convergence than standard IPS-weighted gradient
descent methods. We prove that CounterSample converges faster and complement
our theoretical findings with empirical results by performing extensive
experimentation in a number of biased LTR scenarios -- across optimizers, batch
sizes, and different degrees of position bias.
- Abstract(参考訳): counterfactual learning to rank (ltr)アルゴリズムは、ログされたユーザインタラクションからランキングモデルを学び、しばしばプロダクションシステムを使って収集する。
このようなオフライン学習アプローチを採用することは、オンラインアプローチに比べて多くのメリットがありますが、ユーザのフィードバックには高いレベルのバイアスが伴うため、これは難しいものです。
unbiased ltrはinverse propensity scoring(ips)を使用して、ログされたユーザインタラクションからの偏りのない学習を可能にする。
確率勾配 Descent (SGD) アプローチを対実的学習問題に適用する際の大きな難しさの1つは、確率重みによってもたらされる大きなばらつきである。
本稿では、IPS重み付き勾配を持つSGD手法の収束速度が、IPS重みによってもたらされる大きな分散に悩まされることを示す。
この制限を克服するために,標準のips重み付き勾配降下法よりも収束性が向上した,カウンターサンプルと呼ばれる新しい学習アルゴリズムを提案する。
カウンターサンプルはより高速に収束し、多くの偏りのあるltrシナリオで広範囲な実験を行うことで、経験的な結果で理論的な結果を補うことが証明されます。
関連論文リスト
- Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A
Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。
我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文 参考訳(メタデータ) (2023-07-04T09:35:03Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - On the Versatile Uses of Partial Distance Correlation in Deep Learning [47.11577420740119]
本稿では、異なる次元の特徴空間間の相関を評価するために設計された距離相関(および部分変量)と呼ばれる統計学から(広く知られていない)再検討する。
本稿では,大規模モデルへの展開に必要なステップについて述べる。
これは、ある深いモデルw.r.t.を条件付けすること、非絡み合った表現を学習すること、および敵の攻撃に対してより堅牢な多様なモデルを最適化することなど、驚くべき一連のアプリケーションへの扉を開く。
論文 参考訳(メタデータ) (2022-07-20T06:36:11Z) - Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-07-12T13:14:03Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。