Fugu-MT 論文翻訳(概要): Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization

論文の概要: Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization

arxiv url: http://arxiv.org/abs/2305.01522v1
Date: Wed, 26 Apr 2023 15:54:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-07 16:04:52.783111
Title: Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization
Title（参考訳）: 被曝リスク最小化による対人学習のランク付けのための安全な配置
Authors: Shashank Gupta, Harrie Oosterhuis and Maarten de Rijke
Abstract要約: 本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
参考スコア（独自算出の注目度）: 63.93275508300137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counterfactual learning to rank (CLTR) relies on exposure-based inverse propensity scoring (IPS), a LTR-specific adaptation of IPS to correct for position bias. While IPS can provide unbiased and consistent estimates, it often suffers from high variance. Especially when little click data is available, this variance can cause CLTR to learn sub-optimal ranking behavior. Consequently, existing CLTR methods bring significant risks with them, as naively deploying their models can result in very negative user experiences. We introduce a novel risk-aware CLTR method with theoretical guarantees for safe deployment. We apply a novel exposure-based concept of risk regularization to IPS estimation for LTR. Our risk regularization penalizes the mismatch between the ranking behavior of a learned model and a given safe model. Thereby, it ensures that learned ranking models stay close to a trusted model, when there is high uncertainty in IPS estimation, which greatly reduces the risks during deployment. Our experimental results demonstrate the efficacy of our proposed method, which is effective at avoiding initial periods of bad performance when little data is available, while also maintaining high performance at convergence. For the CLTR field, our novel exposure-based risk minimization method enables practitioners to adopt CLTR methods in a safer manner that mitigates many of the risks attached to previous methods.
Abstract（参考訳）: CLTR ( Counterfactual Learning to rank) は、位置バイアスの補正に LTR 固有の IPS 適応である、露光に基づく逆確率スコア (IPS) に依存する。 IPSはバイアスのない一貫した見積もりを提供するが、しばしば高い分散に悩まされる。特にクリックデータが少ない場合、この分散はCLTRに準最適ランキングの振る舞いを学習させる。その結果、既存のCLTRメソッドは、モデルをナビゲート的にデプロイすることで、非常にネガティブなユーザエクスペリエンスをもたらす可能性があるため、大きなリスクをもたらします。安全配置を理論的に保証した新しいリスク対応cltr法を提案する。 LTRのIPS推定に新しいリスク正規化の概念を適用した。リスク規則化は,学習モデルのランク付け行動と与えられた安全モデルのミスマッチを罰する。これにより、IPS推定に高い不確実性がある場合、学習されたランキングモデルが信頼されたモデルに近づき、デプロイメント中のリスクを大幅に低減する。提案手法の有効性を実験的に検証し,データが少ない場合,かつ収束時の高い性能を維持しつつ,初期劣化の回避に有効であることを示す。 CLTRの分野では,新しいリスク最小化手法により,CLTRメソッドをより安全な方法で適用することが可能となり,従来の手法に付随するリスクの多くを軽減できる。

関連論文リスト

Risk-aware Direct Preference Optimization under Nested Risk Measure [23.336246526648374]
Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。 3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-05-26T08:01:37Z)
Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。 PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文参考訳（メタデータ） (2024-09-15T22:22:27Z)
Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。 PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文参考訳（メタデータ） (2024-07-29T12:23:59Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression [12.44857030152608]
ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。本稿では,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。
論文参考訳（メタデータ） (2024-04-15T09:16:49Z)
Inference-time Stochastic Ranking with Risk Control [19.20938164194589]
ランク付け方法の学習はオンライン経済において不可欠であり、ユーザやアイテムプロバイダに影響を与える。本稿では,事前学習されたスコアリング関数に対して,保証されたユーティリティや公平さで推論時にランク付けを行う新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-12T15:44:58Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Holdouts set for safe predictive model updating [0.4499833362998489]
リスクスコアによって導かれる介入を受けない集団のサブセットであるホールドアウトセット(holdout set)の使用を提案する。予防接種前の症例数を最小化するためには,約1万件のホールドアウトセットを用いて実施することが最善であることを示す。
論文参考訳（メタデータ） (2022-02-13T18:04:00Z)
Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文参考訳（メタデータ） (2021-06-03T09:50:13Z)
Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。 O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文参考訳（メタデータ） (2021-02-10T10:27:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。