論文の概要: Informed Dataset Selection
- arxiv url: http://arxiv.org/abs/2509.26448v1
- Date: Tue, 30 Sep 2025 16:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.19368
- Title: Informed Dataset Selection
- Title(参考訳): インフォームドデータセットの選択
- Authors: Abdullah Abbas, Michael Heep, Theodor Sperle,
- Abstract要約: 我々はAPSエクスプローラーを開発した。APSエクスプローラーはアルゴリズム・パフォーマンス・スペース・フレームワークを組み込んだウェブアプリケーションである。
システムは3つのメトリクス(nDCG、Hit Ratio、Recall)にわたる28のアルゴリズムを使用して、96のデータセットを5つのK値で分析する。
我々は、データセットを5つの難易度に分類する統計ベース分類システムにより、APSフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The selection of datasets in recommender systems research lacks a systematic methodology. Researchers often select datasets based on popularity rather than empirical suitability. We developed the APS Explorer, a web application that im- plements the Algorithm Performance Space (APS) framework for informed dataset selection. The system analyzes 96 datasets using 28 algorithms across three metrics (nDCG, Hit Ratio, Recall) at five K-values. We extend the APS framework with a statistical based classification system that categorizes datasets into five difficulty levels based on quintiles. We also introduce a variance-normalized distance metric based on Mahalanobis distance to measure similarity. The APS Explorer was successfully developed with three interactive modules for visualizing algorithm performance, direct comparing algorithms, and analyzing dataset metadata. This tool shifts the process of selecting datasets from intuition-based to evidence-based practices, and it is publicly available at datasets.recommender-systems.com.
- Abstract(参考訳): 推薦システム研究におけるデータセットの選択は、体系的な方法論を欠いている。
研究者は経験的適合性ではなく、人気に基づいてデータセットを選択することが多い。
我々は,アルゴリズム性能空間(APS)フレームワークを付加したWebアプリケーションであるAPSエクスプローラーを開発した。
システムは3つのメトリクス(nDCG、Hit Ratio、Recall)にわたる28のアルゴリズムを使用して、96のデータセットを5つのK値で分析する。
我々は、データセットを5つの難易度に分類する統計ベース分類システムにより、APSフレームワークを拡張した。
また、類似度を測定するために、マハラノビス距離に基づく分散正規化距離メートル法も導入する。
APSエクスプローラーは、アルゴリズムのパフォーマンスを視覚化し、アルゴリズムを直接比較し、データセットのメタデータを分析する3つのインタラクティブモジュールで開発に成功した。
このツールは、データセットを直感に基づくものからエビデンスベースのものへと選択するプロセスをシフトし、Sanaths.recommender-systems.comで公開されている。
関連論文リスト
- APS Explorer: Navigating Algorithm Performance Spaces for Informed Dataset Selection [0.046180371154032895]
ACM RecSys 2024論文の86%は、データセットの選択を正当化していない。
Amazon (38%)、MovieLens (34%)、Yelp (15%)、Gowalla (12%)の4つのデータセットに依存している。
論文 参考訳(メタデータ) (2025-08-26T19:46:29Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Algorithm Performance Spaces for Strategic Dataset Selection [0.0]
推薦システムにおける新しいアルゴリズムの評価は、MovieLensやAmazonなどの公開データセットに依存することが多い。
この論文では、アルゴリズムに適用されたアルゴリズムの計測パフォーマンスに基づいてデータセットを区別するように設計されたフレームワークである、アルゴリズムパフォーマンススペースを紹介している。
論文 参考訳(メタデータ) (2025-04-29T12:29:52Z) - TSceneJAL: Joint Active Learning of Traffic Scenes for 3D Object Detection [26.059907173437114]
TSceneJALフレームワークはラベル付きデータとラベルなしデータの両方から、バランスのとれた、多様性のある、複雑なトラフィックシーンを効率的にサンプリングすることができる。
提案手法は,3次元オブジェクト検出タスクにおける既存の最先端手法よりも12%向上した。
論文 参考訳(メタデータ) (2024-12-25T11:07:04Z) - A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。
我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。
このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文 参考訳(メタデータ) (2024-09-20T09:19:46Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。