論文の概要: Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders
- arxiv url: http://arxiv.org/abs/2308.06885v1
- Date: Mon, 14 Aug 2023 01:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:44:06.905776
- Title: Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders
- Title(参考訳): リコメンデーションのための時間依存型人気バイアスフリーオフラインメトリックによるオフラインのブリッジング評価
- Authors: Petr Kasalick\'y, Rodrigo Alves, Pavel Kord\'ik
- Abstract要約: 人気アイテムのペナルティ化と取引の時間を考慮したことで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力が大幅に向上することを示す。
本研究の目的は,レコメンデーションシステムの実際の応用に関係のあるオフライン評価と最適化基準を,学術コミュニティがよりよく理解できるようにすることである。
- 参考スコア(独自算出の注目度): 3.130722489512822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of recommendation systems is a complex task. The offline and
online evaluation metrics for recommender systems are ambiguous in their true
objectives. The majority of recently published papers benchmark their methods
using ill-posed offline evaluation methodology that often fails to predict true
online performance. Because of this, the impact that academic research has on
the industry is reduced. The aim of our research is to investigate and compare
the online performance of offline evaluation metrics. We show that penalizing
popular items and considering the time of transactions during the evaluation
significantly improves our ability to choose the best recommendation model for
a live recommender system. Our results, averaged over five large-size
real-world live data procured from recommenders, aim to help the academic
community to understand better offline evaluation and optimization criteria
that are more relevant for real applications of recommender systems.
- Abstract(参考訳): 推薦システムの評価は複雑な作業である。
レコメンダシステムのオフラインおよびオンライン評価指標は、真の目的において曖昧である。
最近発表された論文の大多数は、オンラインのパフォーマンスの予測に失敗する頻度の高いオフライン評価手法を用いて、彼らの手法をベンチマークしている。
このため、学術研究が産業に与える影響は減少している。
本研究の目的は,オフライン評価指標のオンラインパフォーマンスを調査し,比較することである。
我々は,人気商品をペナルティ化し,評価中の取引時間を考慮することで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力を大幅に向上させることを示す。
提案手法は,レコメンデータから取得した5大実世界のライブデータの平均値であり,レコメンデータシステムの実際の応用に最も適したオフライン評価と最適化基準の理解を支援することを目的としている。
関連論文リスト
- Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback [47.03475305565384]
本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。
EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
論文 参考訳(メタデータ) (2024-01-17T04:19:33Z) - A Comprehensive Survey of Evaluation Techniques for Recommendation
Systems [0.0]
本稿では,システム性能の異なる側面を捉えた,総合的なメトリクススイートを紹介する。
私たちは、現在の評価プラクティスの長所と短所を特定し、さまざまなメトリクスにまたがってレコメンデーションシステムを最適化するときに現れる、微妙なトレードオフを強調します。
論文 参考訳(メタデータ) (2023-12-26T11:57:01Z) - Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation [11.940733431087102]
学術的・産業的な研究において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションのための黄金の標準と見なされている。
オンライン評価手法は様々な理由で費用がかかるが、信頼性の高いオフライン評価手順の必要性は明らかである。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
論文 参考訳(メタデータ) (2022-09-18T20:03:32Z) - FEBR: Expert-Based Recommendation Framework for beneficial and
personalized content [77.86290991564829]
推奨コンテンツの質を評価するための見習い学習フレームワークであるFEBR(Expert-Based Recommendation Framework)を提案する。
このフレームワークは、推奨評価環境において専門家(信頼できると仮定される)の実証された軌跡を利用して、未知のユーティリティ機能を回復する。
ユーザ関心シミュレーション環境(RecSim)によるソリューションの性能評価を行う。
論文 参考訳(メタデータ) (2021-07-17T18:21:31Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。