論文の概要: From Variability to Stability: Advancing RecSys Benchmarking Practices
- arxiv url: http://arxiv.org/abs/2402.09766v1
- Date: Thu, 15 Feb 2024 07:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:26:47.842981
- Title: From Variability to Stability: Advancing RecSys Benchmarking Practices
- Title(参考訳): 変数から安定性へ:RecSysベンチマークの実践を促進する
- Authors: Valeriy Shevchenko, Nikita Belousov, Alexey Vasilev, Vladimir
Zholobov, Artyom Sosedka, Natalia Semenova, Anna Volodkevich, Andrey
Savchenko, Alexey Zaytsev
- Abstract要約: 本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
- 参考スコア(独自算出の注目度): 3.458464808497421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving domain of Recommender Systems (RecSys), new
algorithms frequently claim state-of-the-art performance based on evaluations
over a limited set of arbitrarily selected datasets. However, this approach may
fail to holistically reflect their effectiveness due to the significant impact
of dataset characteristics on algorithm performance. Addressing this
deficiency, this paper introduces a novel benchmarking methodology to
facilitate a fair and robust comparison of RecSys algorithms, thereby advancing
evaluation practices. By utilizing a diverse set of $30$ open datasets,
including two introduced in this work, and evaluating $11$ collaborative
filtering algorithms across $9$ metrics, we critically examine the influence of
dataset characteristics on algorithm performance. We further investigate the
feasibility of aggregating outcomes from multiple datasets into a unified
ranking. Through rigorous experimental analysis, we validate the reliability of
our methodology under the variability of datasets, offering a benchmarking
strategy that balances quality and computational demands. This methodology
enables a fair yet effective means of evaluating RecSys algorithms, providing
valuable guidance for future research endeavors.
- Abstract(参考訳): 急速に進化するRecommender Systems(RecSys)のドメインでは、任意の選択された限られたデータセットに対する評価に基づいて、新しいアルゴリズムはしばしば最先端のパフォーマンスを主張する。
しかし、アルゴリズムの性能にデータセット特性が大きな影響を与えるため、このアプローチはアルゴリズムの有効性を総じて反映できない可能性がある。
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で紹介された2つのオープンデータセットを含む30ドルの多様なセットを利用し、9ドルのメトリクスにわたる協調フィルタリングアルゴリズムの評価を行うことで、データセット特性がアルゴリズム性能に与える影響を批判的に検討する。
さらに,複数のデータセットからの結果を統一したランキングに集約する可能性についても検討する。
厳密な実験分析により,本手法の信頼性をデータセットの変動性の下で検証し,品質と計算能力のバランスをとるベンチマーク戦略を提供する。
この手法は、RecSysアルゴリズムを評価する公平で効果的な手段を可能にし、将来の研究に有用なガイダンスを提供する。
関連論文リスト
- A Critical Re-evaluation of Benchmark Datasets for (Deep) Learning-Based
Matching Algorithms [11.264467955516706]
確立された13のデータセットの難易度と適切性を評価するための4つの手法を提案する。
一般的なデータセットの多くは、かなり簡単な分類タスクを処理している。
ベンチマークデータセットを得るための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-03T07:54:54Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - CVTT: Cross-Validation Through Time [0.0]
我々は、メソッドの連続的なパフォーマンスをなくすことで、ジョイントデータ-メソッド効果に関する貴重な洞察を失う可能性があると論じる。
提案手法を用いて、一般的なRecSysアルゴリズムの性能を様々なメトリクスやデータセットに対して詳細に分析する。
以上の結果から,モデルの性能は時間とともに著しく変化し,データと評価設定の両方が顕著な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-11T10:30:38Z) - Early Time-Series Classification Algorithms: An Empirical Comparison [59.82930053437851]
早期時系列分類(Early Time-Series Classification, ETSC)は、できるだけ少ない測定で時系列のクラスを予測するタスクである。
既存のETSCアルゴリズムを公開データと,新たに導入された2つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-03-03T10:43:56Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Test Score Algorithms for Budgeted Stochastic Utility Maximization [12.360522095604983]
既存のスコアリング機構、すなわちレプリケーションテストスコアを拡張して、異種アイテムのコストとアイテムの値を統合する。
我々のアルゴリズムと近似は、テストスコアが特定の期待値のノイズ見積もりであると仮定する。
我々は,我々のアルゴリズムが,同じ近似保証を維持しながら,商品が同じ方法で到着する状況に適応できることを示す。
論文 参考訳(メタデータ) (2020-12-30T15:28:41Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。