論文の概要: Algorithm Performance Spaces for Strategic Dataset Selection
- arxiv url: http://arxiv.org/abs/2505.01442v1
- Date: Tue, 29 Apr 2025 12:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.110957
- Title: Algorithm Performance Spaces for Strategic Dataset Selection
- Title(参考訳): 戦略的データセット選択のためのアルゴリズム性能空間
- Authors: Steffen Schulz,
- Abstract要約: 推薦システムにおける新しいアルゴリズムの評価は、MovieLensやAmazonなどの公開データセットに依存することが多い。
この論文では、アルゴリズムに適用されたアルゴリズムの計測パフォーマンスに基づいてデータセットを区別するように設計されたフレームワークである、アルゴリズムパフォーマンススペースを紹介している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of new algorithms in recommender systems frequently depends on publicly available datasets, such as those from MovieLens or Amazon. Some of these datasets are being disproportionately utilized primarily due to their historical popularity as baselines rather than their suitability for specific research contexts. This thesis addresses this issue by introducing the Algorithm Performance Space, a novel framework designed to differentiate datasets based on the measured performance of algorithms applied to them. An experimental study proposes three metrics to quantify and justify dataset selection to evaluate new algorithms. These metrics also validate assumptions about datasets, such as the similarity between MovieLens datasets of varying sizes. By creating an Algorithm Performance Space and using the proposed metrics, differentiating datasets was made possible, and diverse dataset selections could be found. While the results demonstrate the framework's potential, further research proposals and implications are discussed to develop Algorithm Performance Spaces tailored to diverse use cases.
- Abstract(参考訳): 推薦システムにおける新しいアルゴリズムの評価は、MovieLensやAmazonなどの公開データセットに依存することが多い。
これらのデータセットのいくつかは、主に特定の研究状況に適合するものではなく、ベースラインとして歴史的に人気があったため、不均等に利用されています。
この論文では、アルゴリズムに適用されるアルゴリズムの計測パフォーマンスに基づいてデータセットを区別するように設計された、新しいフレームワークであるアルゴリズムパフォーマンススペースを導入することで、この問題に対処する。
実験では、データセットの選択を定量化し、正当化し、新しいアルゴリズムを評価するための3つの指標を提案する。
これらのメトリクスはまた、さまざまなサイズのMovieLensデータセット間の類似性など、データセットに関する仮定を検証する。
アルゴリズム性能空間を作成し、提案したメトリクスを使用することで、データセットの差別化が可能となり、多様なデータセット選択が検出できた。
その結果、フレームワークの可能性を示す一方で、様々なユースケースに適したアルゴリズム性能空間を開発するためのさらなる研究提案と意味について論じている。
関連論文リスト
- Adaptive Bounded Exploration and Intermediate Actions for Data Debiasing [18.87576995391638]
適応的および有界探索によりトレーニングデータセットを逐次劣化させるアルゴリズムを提案する。
提案したアルゴリズムは、データバイアスの影響を緩和するという究極の目標との間にバランスを取ります。
論文 参考訳(メタデータ) (2025-04-10T22:22:23Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Synthetic Data for Feature Selection [5.8010446129208155]
本稿では,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案する。
提案したデータセットは、現実のシナリオを模倣するために、エレクトロニクスからの応用に基づいている。
データセットはGitHubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。
論文 参考訳(メタデータ) (2022-11-06T05:57:01Z) - Early Time-Series Classification Algorithms: An Empirical Comparison [59.82930053437851]
早期時系列分類(Early Time-Series Classification, ETSC)は、できるだけ少ない測定で時系列のクラスを予測するタスクである。
既存のETSCアルゴリズムを公開データと,新たに導入された2つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-03-03T10:43:56Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - A Framework and Benchmarking Study for Counterfactual Generating Methods
on Tabular Data [0.0]
カウンターファクトな説明は、機械学習の予測を説明する効果的な方法と見なされる。
このような説明を導き出そうとするアルゴリズムは、すでに数十ある。
ベンチマーク研究とフレームワークは、実践者がどのテクニックとビルディングブロックが最も適しているかを決定するのに役立ちます。
論文 参考訳(メタデータ) (2021-07-09T21:06:03Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。