論文の概要: Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization
- arxiv url: http://arxiv.org/abs/2305.01522v1
- Date: Wed, 26 Apr 2023 15:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-07 16:04:52.783111
- Title: Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization
- Title(参考訳): 被曝リスク最小化による対人学習のランク付けのための安全な配置
- Authors: Shashank Gupta, Harrie Oosterhuis and Maarten de Rijke
- Abstract要約: 本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
- 参考スコア(独自算出の注目度): 63.93275508300137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual learning to rank (CLTR) relies on exposure-based inverse
propensity scoring (IPS), a LTR-specific adaptation of IPS to correct for
position bias. While IPS can provide unbiased and consistent estimates, it
often suffers from high variance. Especially when little click data is
available, this variance can cause CLTR to learn sub-optimal ranking behavior.
Consequently, existing CLTR methods bring significant risks with them, as
naively deploying their models can result in very negative user experiences. We
introduce a novel risk-aware CLTR method with theoretical guarantees for safe
deployment. We apply a novel exposure-based concept of risk regularization to
IPS estimation for LTR. Our risk regularization penalizes the mismatch between
the ranking behavior of a learned model and a given safe model. Thereby, it
ensures that learned ranking models stay close to a trusted model, when there
is high uncertainty in IPS estimation, which greatly reduces the risks during
deployment. Our experimental results demonstrate the efficacy of our proposed
method, which is effective at avoiding initial periods of bad performance when
little data is available, while also maintaining high performance at
convergence. For the CLTR field, our novel exposure-based risk minimization
method enables practitioners to adopt CLTR methods in a safer manner that
mitigates many of the risks attached to previous methods.
- Abstract(参考訳): CLTR ( Counterfactual Learning to rank) は、位置バイアスの補正に LTR 固有の IPS 適応である、露光に基づく逆確率スコア (IPS) に依存する。
IPSはバイアスのない一貫した見積もりを提供するが、しばしば高い分散に悩まされる。
特にクリックデータが少ない場合、この分散はCLTRに準最適ランキングの振る舞いを学習させる。
その結果、既存のCLTRメソッドは、モデルをナビゲート的にデプロイすることで、非常にネガティブなユーザエクスペリエンスをもたらす可能性があるため、大きなリスクをもたらします。
安全配置を理論的に保証した新しいリスク対応cltr法を提案する。
LTRのIPS推定に新しいリスク正規化の概念を適用した。
リスク規則化は,学習モデルのランク付け行動と与えられた安全モデルのミスマッチを罰する。
これにより、IPS推定に高い不確実性がある場合、学習されたランキングモデルが信頼されたモデルに近づき、デプロイメント中のリスクを大幅に低減する。
提案手法の有効性を実験的に検証し,データが少ない場合,かつ収束時の高い性能を維持しつつ,初期劣化の回避に有効であることを示す。
CLTRの分野では,新しいリスク最小化手法により,CLTRメソッドをより安全な方法で適用することが可能となり,従来の手法に付随するリスクの多くを軽減できる。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Holdouts set for predictive model updating [0.9749560288448114]
リスクスコアの更新は、バイアスのあるリスク見積につながる可能性がある。
リスクスコアによって導かれる介入を受けない集団のサブセットであるホールドアウトセット(holdout set)の使用を提案する。
このアプローチによって、N$の人口に対して、総コストが$Oleft(N2/3right)$で成長できることが証明され、一般的な状況では競合する代替手段はない、と論じる。
論文 参考訳(メタデータ) (2022-02-13T18:04:00Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - SENTINEL: Taming Uncertainty with Ensemble-based Distributional
Reinforcement Learning [6.587644069410234]
モデルベース強化学習(RL)におけるリスク依存型シーケンシャル意思決定の検討
リスクの新たな定量化、すなわちEmphcomposite riskを導入する。
我々は、SENTINEL-Kが戻り分布をよりよく推定し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示すことを実験的に検証した。
論文 参考訳(メタデータ) (2021-02-22T14:45:39Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。