論文の概要: Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation
- arxiv url: http://arxiv.org/abs/2209.08642v1
- Date: Sun, 18 Sep 2022 20:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:09:34.870685
- Title: Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation
- Title(参考訳): 報酬最適化推薦システムのオフライン評価:シミュレーションの場合
- Authors: Imad Aouali, Amine Benhalloum, Martin Bompaire, Benjamin Heymann,
Olivier Jeunen, David Rohde, Otmane Sakhi and Flavian Vasile
- Abstract要約: 学術的・産業的な研究において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションのための黄金の標準と見なされている。
オンライン評価手法は様々な理由で費用がかかるが、信頼性の高いオフライン評価手順の必要性は明らかである。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
- 参考スコア(独自算出の注目度): 11.940733431087102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both in academic and industry-based research, online evaluation methods are
seen as the golden standard for interactive applications like recommendation
systems. Naturally, the reason for this is that we can directly measure utility
metrics that rely on interventions, being the recommendations that are being
shown to users. Nevertheless, online evaluation methods are costly for a number
of reasons, and a clear need remains for reliable offline evaluation
procedures. In industry, offline metrics are often used as a first-line
evaluation to generate promising candidate models to evaluate online. In
academic work, limited access to online systems makes offline metrics the de
facto approach to validating novel methods. Two classes of offline metrics
exist: proxy-based methods, and counterfactual methods. The first class is
often poorly correlated with the online metrics we care about, and the latter
class only provides theoretical guarantees under assumptions that cannot be
fulfilled in real-world environments. Here, we make the case that
simulation-based comparisons provide ways forward beyond offline metrics, and
argue that they are a preferable means of evaluation.
- Abstract(参考訳): 学術研究と産業研究の両方において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションの黄金の標準と見なされている。
当然、この理由は、介入に依存するユーティリティメトリクスを直接測定することができ、ユーザに提示される推奨事項であるからです。
それでも、オンライン評価手法は様々な理由でコストがかかるため、信頼性の高いオフライン評価手順の必要性は明らかである。
業界では、オフラインメトリクスは、オンラインで評価する有望な候補モデルを生成するためのファーストライン評価としてしばしば使用される。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
オフラインメトリクスには、プロキシベースのメソッドと偽のメソッドという2つのクラスがある。
第1のクラスは私たちが関心を持っているオンラインメトリクスと相関が低く、後者のクラスは現実の環境では達成できない仮定の下でのみ理論的保証を提供する。
ここでは、シミュレーションに基づく比較がオフラインのメトリクスを超えて先進的な方法を提供し、それらが望ましい評価方法であると主張する。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders [3.130722489512822]
人気アイテムのペナルティ化と取引の時間を考慮したことで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力が大幅に向上することを示す。
本研究の目的は,レコメンデーションシステムの実際の応用に関係のあるオフライン評価と最適化基準を,学術コミュニティがよりよく理解できるようにすることである。
論文 参考訳(メタデータ) (2023-08-14T01:37:02Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。