論文の概要: Do Offline Metrics Predict Online Performance in Recommender Systems?
- arxiv url: http://arxiv.org/abs/2011.07931v1
- Date: Sat, 7 Nov 2020 01:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:51:23.746240
- Title: Do Offline Metrics Predict Online Performance in Recommender Systems?
- Title(参考訳): オフラインメトリクスはレコメンダシステムのオンラインパフォーマンスを予測するか?
- Authors: Karl Krauth, Sarah Dean, Alex Zhao, Wenshuo Guo, Mihaela Curmei,
Benjamin Recht, Michael I. Jordan
- Abstract要約: 6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
- 参考スコア(独自算出の注目度): 79.48653445643865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems operate in an inherently dynamical setting. Past
recommendations influence future behavior, including which data points are
observed and how user preferences change. However, experimenting in production
systems with real user dynamics is often infeasible, and existing
simulation-based approaches have limited scale. As a result, many
state-of-the-art algorithms are designed to solve supervised learning problems,
and progress is judged only by offline metrics. In this work we investigate the
extent to which offline metrics predict online performance by evaluating eleven
recommenders across six controlled simulated environments. We observe that
offline metrics are correlated with online performance over a range of
environments. However, improvements in offline metrics lead to diminishing
returns in online performance. Furthermore, we observe that the ranking of
recommenders varies depending on the amount of initial offline data available.
We study the impact of adding exploration strategies, and observe that their
effectiveness, when compared to greedy recommendation, is highly dependent on
the recommendation algorithm. We provide the environments and recommenders
described in this paper as Reclab: an extensible ready-to-use simulation
framework at https://github.com/berkeley-reclab/RecLab.
- Abstract(参考訳): レコメンダシステムは本質的に動的に動作します。
過去のレコメンデーションは、どのデータポイントが観察されるか、ユーザの好みがどう変わるかなど、将来の行動に影響を与える。
しかし、実際のユーザダイナミクスを用いた実運用システムでの実験は不可能であり、既存のシミュレーションベースのアプローチには限界がある。
その結果、教師付き学習問題を解決するために多くの最先端アルゴリズムが設計され、進捗はオフラインメトリクスによって判断される。
本研究では,6つのシミュレーション環境における11のレコメンダを評価することにより,オフラインメトリクスがオンラインパフォーマンスを予測できる程度を調査した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
しかし、オフラインメトリクスの改善は、オンラインパフォーマンスのリターンを低下させる。
さらに,リコメンダのランキングは,初期オフラインデータの量によって異なることも確認した。
本研究は,探索戦略の付加が与える影響について検討し,その効果は,欲望の推奨と比較して,推薦アルゴリズムに大きく依存していることを確認した。
Reclab: https://github.com/berkeley-reclab/RecLab.comで利用可能な拡張可能なシミュレーションフレームワーク。
関連論文リスト
- Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders [3.130722489512822]
人気アイテムのペナルティ化と取引の時間を考慮したことで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力が大幅に向上することを示す。
本研究の目的は,レコメンデーションシステムの実際の応用に関係のあるオフライン評価と最適化基準を,学術コミュニティがよりよく理解できるようにすることである。
論文 参考訳(メタデータ) (2023-08-14T01:37:02Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation [11.940733431087102]
学術的・産業的な研究において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションのための黄金の標準と見なされている。
オンライン評価手法は様々な理由で費用がかかるが、信頼性の高いオフライン評価手順の必要性は明らかである。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
論文 参考訳(メタデータ) (2022-09-18T20:03:32Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。