論文の概要: Position Paper: Why the Shooting in the Dark Method Dominates
Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking
- arxiv url: http://arxiv.org/abs/2402.02152v2
- Date: Thu, 8 Feb 2024 12:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:08:20.837070
- Title: Position Paper: Why the Shooting in the Dark Method Dominates
Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking
- Title(参考訳): ポジションペーパー:なぜダークメソッドでの銃撃がレコメンダシステムの実践を支配するのか;反ユートピア的思考を捨てようという呼びかけ
- Authors: David Rohde
- Abstract要約: テストするB'を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ尺度をターゲットにしている。
あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しません。
本稿では,ディープラーニングスタックの非標準利用が,報酬最適化の推奨を解放する可能性を持っていることを論じる。
- 参考スコア(独自算出の注目度): 4.124590489579409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applied recommender systems research is in a curious position. While there is
a very rigorous protocol for measuring performance by A/B testing, best
practice for finding a `B' to test does not explicitly target performance but
rather targets a proxy measure. The success or failure of a given A/B test then
depends entirely on if the proposed proxy is better correlated to performance
than the previous proxy. No principle exists to identify if one proxy is better
than another offline, leaving the practitioners shooting in the dark. The
purpose of this position paper is to question this anti-Utopian thinking and
argue that a non-standard use of the deep learning stacks actually has the
potential to unlock reward optimizing recommendation.
- Abstract(参考訳): applied recommender systems researchは興味深い立場にある。
A/Bテストによってパフォーマンスを測定するための非常に厳格なプロトコルがあるが、テストする‘B’を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ測度をターゲットにしている。
与えられたA/Bテストの成功または失敗は、提案されたプロキシが以前のプロキシよりもパフォーマンスに相関しているかどうかに完全に依存する。
あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しない。
このポジション論文の目的は、この反ユートピア的思考に疑問を呈し、ディープラーニングスタックの非標準的な使用は、実際には報酬最適化の推奨を解き放つ可能性があると主張することである。
関連論文リスト
- Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning [37.70609910232786]
深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:09:43Z) - Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic
Experimentation [4.389289483635932]
本稿では,eBayの実験プラットフォームのためのベイズバッチブロードバンドアルゴリズムを4つ提案する。
新たなWB-TTTSは、固定水平A/Bテストに対する効率的で信頼性が高く、堅牢な代替手段であることを示している。
本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。
論文 参考訳(メタデータ) (2023-05-24T04:16:56Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Weak Proxies are Sufficient and Preferable for Fairness with Missing
Sensitive Attributes [25.730297492625507]
適切な3つのプロキシのみを用いて,正当性(確実に)を正確に測定できるアルゴリズムを開発した。
本結果は,プロキシの適切な使用方法に関する実践者のための実践的ガイドラインのセットであることを示唆している。
論文 参考訳(メタデータ) (2022-10-06T19:25:29Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Causality-Aware Neighborhood Methods for Recommender Systems [3.0919302844782717]
販売の増加などのリコメンデーターのビジネス目的は、レコメンデーションの因果効果と一致している。
以前の推奨者は因果推論において逆確率スコアリング(IPS)を採用している。
推薦の因果効果に対するロバストなランキング手法を開発した。
論文 参考訳(メタデータ) (2020-12-17T08:23:17Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Safe Exploration for Optimizing Contextual Bandits [58.22688545687366]
安全探索アルゴリズム(SEA)による文脈的帯域幅問題に対する新しい学習手法を提案する。
SEAは、ベースライン(または生産)ランキングシステム(つまりポリシー)を使用することから始まる。
SEAは、カウンターファクトラーニングを使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学習する。
論文 参考訳(メタデータ) (2020-02-02T19:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。