論文の概要: Beyond NDCG: behavioral testing of recommender systems with RecList
- arxiv url: http://arxiv.org/abs/2111.09963v1
- Date: Thu, 18 Nov 2021 22:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 04:33:50.995139
- Title: Beyond NDCG: behavioral testing of recommender systems with RecList
- Title(参考訳): NDCGを超えて: RecListによるレコメンデータシステムの振る舞いテスト
- Authors: Patrick John Chia, Jacopo Tagliabue, Federico Bianchi, Chloe He, Brian
Ko
- Abstract要約: 本稿では,行動に基づくテスト手法RecListを提案する。
RecListはユースケースによってレコメンデータシステムを整理し、振る舞いテストのスケールアップのための一般的なプラグイン・アンド・プレイ手順を導入している。
我々は、既知のアルゴリズムとブラックボックスの商用システムを分析することで、その能力を実証する。
- 参考スコア(独自算出の注目度): 3.36987520740109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As with most Machine Learning systems, recommender systems are typically
evaluated through performance metrics computed over held-out data points.
However, real-world behavior is undoubtedly nuanced: ad hoc error analysis and
deployment-specific tests must be employed to ensure the desired quality in
actual deployments. In this paper, we propose RecList, a behavioral-based
testing methodology. RecList organizes recommender systems by use case and
introduces a general plug-and-play procedure to scale up behavioral testing. We
demonstrate its capabilities by analyzing known algorithms and black-box
commercial systems, and we release RecList as an open source, extensible
package for the community.
- Abstract(参考訳): ほとんどの機械学習システムと同様に、レコメンダシステムは通常、保持されたデータポイントで計算されたパフォーマンスメトリクスによって評価される。
アドホックなエラー分析とデプロイメント特有のテストは、実際のデプロイメントで望ましい品質を保証するために採用する必要があります。
本稿では,行動に基づくテスト手法であるreclistを提案する。
RecListはユースケースによってレコメンデータシステムを整理し、振る舞いテストのスケールアップのための一般的なプラグアンドプレイ手順を導入する。
我々は、既知のアルゴリズムとブラックボックスの商用システムを分析し、コミュニティ向けのオープンソースの拡張可能なパッケージとしてRecListをリリースした。
関連論文リスト
- ECORS: An Ensembled Clustering Approach to Eradicate The Local And Global Outlier In Collaborative Filtering Recommender System [0.0]
外乱検知は レコメンデーターシステムにおける 重要な研究領域です
様々なクラスタリングアルゴリズムを用いて,これらの課題に対処する手法を提案する。
実験の結果,提案手法はリコメンデータシステムにおける異常検出の精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-01T05:06:07Z) - InspectorRAGet: An Introspection Platform for RAG Evaluation [14.066727601732625]
InspectorRAGetはRAG評価のためのイントロスペクションプラットフォームである。
ユーザはRAGシステムの集約とインスタンスレベルのパフォーマンスを分析できる。
論文 参考訳(メタデータ) (2024-04-26T11:51:53Z) - RecRec: Algorithmic Recourse for Recommender Systems [41.97186998947909]
特定の予測やレコメンデーションを行う上で、すべての利害関係者がモデルの理論的根拠を理解することが不可欠です。
これは、リコメンデーションシステムに依存するコンテンツプロバイダにとって特に当てはまります。
本稿では,コンテンツ提供者を対象としたレコメンデーションシステムのためのレコメンデーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T22:26:50Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL [20.360392791376707]
強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。
学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。
本稿では,複雑なリアルタイム戦略ゲームを行うために訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者が関与するユーザスタディを提案する。
論文 参考訳(メタデータ) (2022-06-04T18:16:05Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。