論文の概要: Optimal Dataset Size for Recommender Systems: Evaluating Algorithms' Performance via Downsampling
- arxiv url: http://arxiv.org/abs/2502.08845v1
- Date: Wed, 12 Feb 2025 23:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:07.263725
- Title: Optimal Dataset Size for Recommender Systems: Evaluating Algorithms' Performance via Downsampling
- Title(参考訳): リコメンダシステムのための最適データセットサイズ:ダウンサンプリングによるアルゴリズムの性能評価
- Authors: Ardalan Arabzadeh, Joeran Beel, Tobias Vente,
- Abstract要約: この論文は、レコメンデーションシステムのエネルギー効率を最適化するための戦略としてデータセットのダウンサンプリングを調査している。
7つのデータセット、12のアルゴリズム、そして2つのレベルのコアプルーニングに2つのダウンサンプリングアプローチを適用することで、この研究はランタイムと二酸化炭素排出量を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License:
- Abstract: This thesis investigates dataset downsampling as a strategy to optimize energy efficiency in recommender systems while maintaining competitive performance. With increasing dataset sizes posing computational and environmental challenges, this study explores the trade-offs between energy efficiency and recommendation quality in Green Recommender Systems, which aim to reduce environmental impact. By applying two downsampling approaches to seven datasets, 12 algorithms, and two levels of core pruning, the research demonstrates significant reductions in runtime and carbon emissions. For example, a 30% downsampling portion can reduce runtime by 52% compared to the full dataset, leading to a carbon emission reduction of up to 51.02 KgCO2e during the training of a single algorithm on a single dataset. The analysis reveals that algorithm performance under different downsampling portions depends on factors like dataset characteristics, algorithm complexity, and the specific downsampling configuration (scenario dependent). Some algorithms, which showed lower nDCG@10 scores compared to higher-performing ones, exhibited lower sensitivity to the amount of training data, offering greater potential for efficiency in lower downsampling portions. On average, these algorithms retained 81% of full-size performance using only 50% of the training set. In certain downsampling configurations, where more users were progressively included while keeping the test set size fixed, they even showed higher nDCG@10 scores than when using the full dataset. These findings highlight the feasibility of balancing sustainability and effectiveness, providing insights for designing energy-efficient recommender systems and promoting sustainable AI practices.
- Abstract(参考訳): この論文は、競争性能を維持しながらレコメンダシステムのエネルギー効率を最適化する戦略としてデータセットのダウンサンプリングを考察する。
本研究は, 環境負荷の低減を目的としたグリーンレコメンダシステムにおいて, エネルギー効率とレコメンデーション品質のトレードオフについて検討する。
7つのデータセット、12のアルゴリズム、そして2つのレベルのコアプルーニングに2つのダウンサンプリングアプローチを適用することで、この研究はランタイムと二酸化炭素排出量を大幅に削減することを示した。
例えば、30%のダウンサンプリング部分は、完全なデータセットと比較してランタイムを52%削減することができ、単一のデータセット上の単一のアルゴリズムのトレーニング中に、二酸化炭素排出量を最大51.02 KgCO2eに削減できる。
分析の結果、異なるダウンサンプリング部分でのアルゴリズムのパフォーマンスは、データセットの特徴、アルゴリズムの複雑さ、特定のダウンサンプリング構成(シナリオ依存)などの要因に依存することが明らかになった。
また,nDCG@10スコアを高い性能値と比較したアルゴリズムでは,トレーニングデータの量に対する感度が低下し,低サンプリング部分の効率性が向上した。
平均すると、これらのアルゴリズムはトレーニングセットの50%しか使用せず、フルサイズのパフォーマンスの81%を保持していた。
特定のダウンサンプリング構成では、テストセットのサイズを固定しながら、より多くのユーザが段階的に含まれているため、完全なデータセットを使用する場合よりも高いnDCG@10スコアも表示されていた。
これらの調査結果は、持続可能性と有効性のバランスの実現可能性を強調し、エネルギー効率の高いレコメンデータシステムを設計し、持続可能なAIプラクティスを促進するための洞察を提供する。
関連論文リスト
- Testing the Efficacy of Hyperparameter Optimization Algorithms in Short-Term Load Forecasting [0.0]
我々は、Panaama Electricityデータセットを用いて、サロゲート予測アルゴリズムであるXGBoostのHPOアルゴリズムの性能を、精度(MAPE、$R2$)とランタイムで評価する。
その結果,Random SearchよりもHPOアルゴリズムが優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-19T09:08:52Z) - Green Recommender Systems: Optimizing Dataset Size for Energy-Efficient Algorithm Performance [0.10241134756773229]
本稿では,データセットサイズを最適化することで,エネルギー効率の高いアルゴリズムの性能向上の可能性について検討する。
MovieLens 100K, 1M, 10M, Amazon Toys and Gamesデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-10-12T04:00:55Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Fast Bayesian Optimization of Needle-in-a-Haystack Problems using
Zooming Memory-Based Initialization [73.96101108943986]
Needle-in-a-Haystack問題は、データセットのサイズに対して最適な条件が極端に不均衡であるときに発生する。
本稿では,従来のベイズ最適化原理に基づくズームメモリに基づく初期化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T23:57:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Balancing Performance and Energy Consumption of Bagging Ensembles for
the Classification of Data Streams in Edge Computing [9.801387036837871]
エッジコンピューティング(EC)は、IoT(Internet of Things)や5Gネットワークといったテクノロジを開発する上で可能な要素として登場した。
本研究は,データストリームの分類において,バッグアンサンブルの性能とエネルギー消費を最適化するための戦略を検討する。
論文 参考訳(メタデータ) (2022-01-17T04:12:18Z) - Optimal Actor-Critic Policy with Optimized Training Datasets [8.372742131747522]
アクタークリティカル(AC)アルゴリズムは、強化学習問題の解法における有効性と高い性能で知られている。
サンプリング効率も低い。
本稿では,ACプロセスから収集したサンプルが大幅に少ないトレーニングデータセットを最適化する戦略を提案する。
論文 参考訳(メタデータ) (2021-08-16T06:09:55Z) - Sampling-Decomposable Generative Adversarial Recommender [84.05894139540048]
サンプル分解可能な生成逆数レコメンダ(SD-GAR)を提案する。
本フレームワークでは, 自己正規化重要度サンプリングにより, 生成元と最適値とのばらつきを補償する。
提案アルゴリズムを5つの実世界のレコメンデーションデータセットを用いて広範囲に評価する。
論文 参考訳(メタデータ) (2020-11-02T13:19:10Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。