論文の概要: Position Paper: Why the Shooting in the Dark Method Dominates
Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking
- arxiv url: http://arxiv.org/abs/2402.02152v1
- Date: Sat, 3 Feb 2024 13:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:52:51.172703
- Title: Position Paper: Why the Shooting in the Dark Method Dominates
Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking
- Title(参考訳): ポジションペーパー:なぜダークメソッドでの銃撃がレコメンダシステムの実践を支配するのか;反ユートピア的思考を捨てようという呼びかけ
- Authors: David Rohde
- Abstract要約: テストするB'を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ尺度をターゲットにしている。
あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しません。
本稿では,ディープラーニングスタックの非標準利用が,報酬最適化の推奨を解放する可能性を持っていることを論じる。
- 参考スコア(独自算出の注目度): 4.124590489579409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applied recommender systems research is in a curious position. While there is
a very rigorous protocol for measuring performance by A/B testing, best
practice for finding a `B' to test does not explicitly target performance but
rather targets a proxy measure. The success or failure of a given A/B test then
depends entirely on if the proposed proxy is better correlated to performance
than the previous proxy. No principle exists to identify if one proxy is better
than another offline, leaving the practitioners shooting in the dark. The
purpose of this position paper is to question this anti-Utopian thinking and
argue that a non-standard use of the deep learning stacks actually has the
potential to unlock reward optimizing recommendation.
- Abstract(参考訳): applied recommender systems researchは興味深い立場にある。
A/Bテストによってパフォーマンスを測定するための非常に厳格なプロトコルがあるが、テストする‘B’を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ測度をターゲットにしている。
与えられたA/Bテストの成功または失敗は、提案されたプロキシが以前のプロキシよりもパフォーマンスに相関しているかどうかに完全に依存する。
あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しない。
このポジション論文の目的は、この反ユートピア的思考に疑問を呈し、ディープラーニングスタックの非標準的な使用は、実際には報酬最適化の推奨を解き放つ可能性があると主張することである。
関連論文リスト
- Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。
EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。
この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文 参考訳(メタデータ) (2024-08-15T03:01:02Z) - Shadow-Free Membership Inference Attacks: Recommender Systems Are More Vulnerable Than You Thought [43.490918008927]
本稿では,ユーザによる会員推論の推奨を直接活用するシャドウフリーMIAを提案する。
我々の攻撃は、ベースラインよりも偽陽性率の低い攻撃精度をはるかに向上させる。
論文 参考訳(メタデータ) (2024-05-11T13:52:22Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic
Experimentation [4.389289483635932]
本稿では,eBayの実験プラットフォームのためのベイズバッチブロードバンドアルゴリズムを4つ提案する。
新たなWB-TTTSは、固定水平A/Bテストに対する効率的で信頼性が高く、堅牢な代替手段であることを示している。
本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。
論文 参考訳(メタデータ) (2023-05-24T04:16:56Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Safe Exploration for Optimizing Contextual Bandits [58.22688545687366]
安全探索アルゴリズム(SEA)による文脈的帯域幅問題に対する新しい学習手法を提案する。
SEAは、ベースライン(または生産)ランキングシステム(つまりポリシー)を使用することから始まる。
SEAは、カウンターファクトラーニングを使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学習する。
論文 参考訳(メタデータ) (2020-02-02T19:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。