論文の概要: Online and Offline Evaluations of Collaborative Filtering and Content Based Recommender Systems
- arxiv url: http://arxiv.org/abs/2411.01354v1
- Date: Sat, 02 Nov 2024 20:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:24.447675
- Title: Online and Offline Evaluations of Collaborative Filtering and Content Based Recommender Systems
- Title(参考訳): 協調フィルタリングとコンテンツベースレコメンダシステムのオンライン・オフライン評価
- Authors: Ali Elahi, Armin Zirak,
- Abstract要約: 本研究では,イランにおける大規模レコメンデーションシステムの比較分析を行った。
このシステムは、コンテンツベース、協調フィルタリング、トレンドベース手法、ハイブリッドアプローチを用いた、ユーザベースおよびアイテムベースのレコメンデーションを採用している。
評価方法は,手動による評価,ヒットレート@kやnDCGなどの評価指標を含むオフラインテスト,クリックスルーレート(CTR)によるオンラインテストなどである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recommender systems are widely used AI applications designed to help users efficiently discover relevant items. The effectiveness of such systems is tied to the satisfaction of both users and providers. However, user satisfaction is complex and cannot be easily framed mathematically using information retrieval and accuracy metrics. While many studies evaluate accuracy through offline tests, a growing number of researchers argue that online evaluation methods such as A/B testing are better suited for this purpose. We have employed a variety of algorithms on different types of datasets divergent in size and subject, producing recommendations in various platforms, including media streaming services, digital publishing websites, e-commerce systems, and news broadcasting networks. Notably, our target websites and datasets are in Persian (Farsi) language. This study provides a comparative analysis of a large-scale recommender system that has been operating for the past year across about 70 websites in Iran, processing roughly 300 requests per second collectively. The system employs user-based and item-based recommendations using content-based, collaborative filtering, trend-based methods, and hybrid approaches. Through both offline and online evaluations, we aim to identify where these algorithms perform most efficiently and determine the best method for our specific needs, considering the dataset and system scale. Our methods of evaluation include manual evaluation, offline tests including accuracy and ranking metrics like hit-rate@k and nDCG, and online tests consisting of click-through rate (CTR). Additionally we analyzed and proposed methods to address cold-start and popularity bias.
- Abstract(参考訳): リコメンダシステムは、ユーザーが関連アイテムを効率的に発見するのに役立つように設計された、広く使われているAIアプリケーションである。
このようなシステムの有効性は、ユーザとプロバイダ双方の満足度に結びついている。
しかし、ユーザ満足度は複雑であり、情報検索と精度の指標を用いて数学的にフレーム化することは困難である。
多くの研究がオフラインテストを通じて精度を評価する一方で、A/Bテストのようなオンライン評価手法がこの目的に適していると主張する研究者が増えている。
我々は,メディアストリーミングサービス,デジタルパブリッシングサイト,eコマースシステム,ニュースブロードキャスティングネットワークなど,さまざまなタイプのデータセットにさまざまなアルゴリズムを導入し,さまざまなプラットフォームでレコメンデーションを作成してきた。
特に、ターゲットWebサイトとデータセットはペルシア語(Farsi)言語です。
この研究は、イランの約70のウェブサイトで過去1年間運用されてきた大規模なレコメンデータシステムの比較分析を行い、一括して毎秒約300リクエストを処理する。
このシステムは、コンテンツベース、協調フィルタリング、トレンドベース手法、ハイブリッドアプローチを用いた、ユーザベースおよびアイテムベースのレコメンデーションを採用している。
オフラインとオンライン両方の評価を通じて、これらのアルゴリズムがどこで最も効率的に機能するかを特定し、データセットとシステムスケールを考慮して、我々の特定のニーズに最適な方法を決定することを目指している。
評価方法は,手動による評価,ヒットレート@kやnDCGなどの評価指標を含むオフラインテスト,クリックスルーレート(CTR)によるオンラインテストなどである。
また,寒冷開始バイアスと人気バイアスに対処する手法も提案した。
関連論文リスト
- Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - A Comprehensive Survey of Evaluation Techniques for Recommendation
Systems [0.0]
本稿では,システム性能の異なる側面を捉えた,総合的なメトリクススイートを紹介する。
私たちは、現在の評価プラクティスの長所と短所を特定し、さまざまなメトリクスにまたがってレコメンデーションシステムを最適化するときに現れる、微妙なトレードオフを強調します。
論文 参考訳(メタデータ) (2023-12-26T11:57:01Z) - Embedding in Recommender Systems: A Survey [67.67966158305603]
重要な側面は、ユーザやアイテムIDといった高次元の離散的な特徴を低次元連続ベクトルに包含する技法である。
埋め込み技術の適用は複雑なエンティティ関係を捉え、かなりの研究を刺激している。
この調査では、協調フィルタリング、自己教師付き学習、グラフベースのテクニックなどの埋め込み手法を取り上げている。
論文 参考訳(メタデータ) (2023-10-28T06:31:06Z) - Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders [3.130722489512822]
人気アイテムのペナルティ化と取引の時間を考慮したことで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力が大幅に向上することを示す。
本研究の目的は,レコメンデーションシステムの実際の応用に関係のあるオフライン評価と最適化基準を,学術コミュニティがよりよく理解できるようにすることである。
論文 参考訳(メタデータ) (2023-08-14T01:37:02Z) - Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation [11.940733431087102]
学術的・産業的な研究において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションのための黄金の標準と見なされている。
オンライン評価手法は様々な理由で費用がかかるが、信頼性の高いオフライン評価手順の必要性は明らかである。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
論文 参考訳(メタデータ) (2022-09-18T20:03:32Z) - A Comprehensive Review on Non-Neural Networks Collaborative Filtering
Recommendation Systems [1.3124513975412255]
協調フィルタリング(CF)は、あるユーザグループの既知の好みを利用して、他のユーザの未知の好みに関する予測とレコメンデーションを行う。
1990年代に初めて導入され、様々なモデルが提案されている。
多くの分野で機械学習技術の成功により、リコメンデーションシステムにおけるそのようなアルゴリズムの適用に重点が置かれている。
論文 参考訳(メタデータ) (2021-06-20T11:13:33Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Recommendation system using a deep learning and graph analysis approach [1.2183405753834562]
本稿では,行列係数化とグラフ解析に基づく新しい推薦手法を提案する。
さらに,ディープオートエンコーダを利用してユーザやアイテムの潜伏要因を初期化し,ディープ埋め込み手法によってユーザの潜伏要因をユーザ信頼グラフから収集する。
論文 参考訳(メタデータ) (2020-04-17T08:05:33Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。