論文の概要: The Impact of Feature Quantity on Recommendation Algorithm Performance:
A Movielens-100K Case Study
- arxiv url: http://arxiv.org/abs/2207.08713v1
- Date: Wed, 13 Jul 2022 12:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-24 11:46:12.458920
- Title: The Impact of Feature Quantity on Recommendation Algorithm Performance:
A Movielens-100K Case Study
- Title(参考訳): 推薦アルゴリズムの性能に及ぼす特徴量の影響:Movielens-100Kケーススタディ
- Authors: Lukas Wegmeth
- Abstract要約: 最近のモデルベースのRecommender Systems(RecSys)アルゴリズムは、機械学習(ML)のアルゴリズムに似た設計において、サイド情報と呼ばれる機能の使用を強調している。
このケーススタディの目的は、サイド情報を含む場合のRecSysとMLアルゴリズムの性能比較と評価を提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent model-based Recommender Systems (RecSys) algorithms emphasize on the
use of features, also called side information, in their design similar to
algorithms in Machine Learning (ML). In contrast, some of the most popular and
traditional algorithms for RecSys solely focus on a given user-item-rating
relation without including side information. The goal of this case study is to
provide a performance comparison and assessment of RecSys and ML algorithms
when side information is included. We chose the Movielens-100K data set since
it is a standard for comparing RecSys algorithms. We compared six different
feature sets with varying quantities of features which were generated from the
baseline data and evaluated on a total of 19 RecSys algorithms, baseline ML
algorithms, Automated Machine Learning (AutoML) pipelines, and state-of-the-art
RecSys algorithms that incorporate side information. The results show that
additional features benefit all algorithms we evaluated. However, the
correlation between feature quantity and performance is not monotonous for
AutoML and RecSys. In these categories, an analysis of feature importance
revealed that the quality of features matters more than quantity. Throughout
our experiments, the average performance on the feature set with the lowest
number of features is about 6% worse compared to that with the highest in terms
of the Root Mean Squared Error. An interesting observation is that AutoML
outperforms matrix factorization-based RecSys algorithms when additional
features are used. Almost all algorithms that can include side information have
higher performance when using the highest quantity of features. In the other
cases, the performance difference is negligible (<1%). The results show a clear
positive trend for the effect of feature quantity as well as the important
effects of feature quality on the evaluated algorithms.
- Abstract(参考訳): 最近のモデルベースのRecommender Systems(RecSys)アルゴリズムは、機械学習(ML)のアルゴリズムに似た設計において、サイド情報と呼ばれる機能の使用を強調している。
対照的に、RecSysの最も人気があり伝統的なアルゴリズムのいくつかは、サイド情報を含めることなく、与えられたユーザーイテム関係にのみ焦点を当てている。
本研究の目的は,側情報を含む場合のRecSysとMLアルゴリズムの性能比較と評価を行うことである。
RecSysアルゴリズムを比較する標準であるため、Movielens-100Kデータセットを選択しました。
ベースラインデータから生成した特徴量の異なる6つの特徴セットを比較し,19のrecsysアルゴリズム,ベースラインmlアルゴリズム,自動機械学習(automl)パイプライン,およびサイド情報を含む最先端recsysアルゴリズムを用いて評価した。
その結果、追加機能は評価した全てのアルゴリズムに有益であることがわかった。
しかし、AutoMLやRecSysでは特徴量と性能の相関は単調ではない。
これらのカテゴリでは,特徴の質が量よりも重要であることが明らかとなった。
実験を通して、最小の機能数を持つ機能セットの平均パフォーマンスは、根の平均二乗誤差の点で最高で、それよりも約6%悪いです。
興味深い観察は、AutoMLが追加機能を使用する場合、行列分解ベースのRecSysアルゴリズムより優れていることである。
サイド情報を含むほとんどのアルゴリズムは、最も多くの機能を使用する場合、より高いパフォーマンスを持つ。
その他のケースでは、パフォーマンスの差は無視できる(1%)。
その結果,特徴量の影響は明らかに正の傾向を示すとともに,特徴量が評価アルゴリズムに与える影響も明らかとなった。
関連論文リスト
- Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - DynamoRep: Trajectory-Based Population Dynamics for Classification of
Black-box Optimization Problems [0.755972004983746]
簡単な統計量を用いて最適化アルゴリズムの軌道を記述する特徴抽出法を提案する。
提案するDynamoRep機能は,最適化アルゴリズムが動作している問題クラスを特定するのに十分な情報を取得する。
論文 参考訳(メタデータ) (2023-06-08T06:57:07Z) - Explainable Model-specific Algorithm Selection for Multi-Label
Classification [6.442438468509492]
MLC(Multi-label classification)は、データインスタンスが同時に複数のクラスに属すことができる予測モデリングのMLタスクである。
いくつかのMLCアルゴリズムが文献で提案されており、メタ最適化の問題を引き起こしている。
本研究では,データセットの特性を利用した自動アプローチの品質について検討する。
論文 参考訳(メタデータ) (2022-11-21T07:42:11Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Fair Feature Subset Selection using Multiobjective Genetic Algorithm [0.0]
フェアネスと精度を両立させる特徴部分選択手法を提案する。
モデル性能の指標としてF1-Scoreを用いる。
最も一般的なフェアネスベンチマークデータセットの実験では、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示されている。
論文 参考訳(メタデータ) (2022-04-30T22:51:19Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。