論文の概要: Challenges in Benchmarking Stream Learning Algorithms with Real-world
Data
- arxiv url: http://arxiv.org/abs/2005.00113v2
- Date: Tue, 30 Jun 2020 15:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:31:38.053560
- Title: Challenges in Benchmarking Stream Learning Algorithms with Real-world
Data
- Title(参考訳): 実世界データを用いたストリーム学習アルゴリズムベンチマークの課題
- Authors: Vinicius M. A. Souza, Denis M. dos Reis, Andre G. Maletzke, Gustavo E.
A. P. A. Batista
- Abstract要約: ストリーミングデータは、センサー計測、衛星データフィード、株式市場、金融データなど、現実世界のアプリケーションにますます存在する。
データストリームマイニングコミュニティは、新しい提案の比較と評価に関するいくつかの主要な課題と困難に直面している。
実世界のデータを用いたストリームアルゴリズムのベンチマークのための新しい公開データリポジトリを提案する。
- 参考スコア(独自算出の注目度): 2.861782696432711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming data are increasingly present in real-world applications such as
sensor measurements, satellite data feed, stock market, and financial data. The
main characteristics of these applications are the online arrival of data
observations at high speed and the susceptibility to changes in the data
distributions due to the dynamic nature of real environments. The data stream
mining community still faces some primary challenges and difficulties related
to the comparison and evaluation of new proposals, mainly due to the lack of
publicly available non-stationary real-world datasets. The comparison of stream
algorithms proposed in the literature is not an easy task, as authors do not
always follow the same recommendations, experimental evaluation procedures,
datasets, and assumptions. In this paper, we mitigate problems related to the
choice of datasets in the experimental evaluation of stream classifiers and
drift detectors. To that end, we propose a new public data repository for
benchmarking stream algorithms with real-world data. This repository contains
the most popular datasets from literature and new datasets related to a highly
relevant public health problem that involves the recognition of disease vector
insects using optical sensors. The main advantage of these new datasets is the
prior knowledge of their characteristics and patterns of changes to evaluate
new adaptive algorithm proposals adequately. We also present an in-depth
discussion about the characteristics, reasons, and issues that lead to
different types of changes in data distribution, as well as a critical review
of common problems concerning the current benchmark datasets available in the
literature.
- Abstract(参考訳): ストリーミングデータは、センサー計測、衛星データフィード、株式市場、金融データといった現実世界のアプリケーションにますます存在する。
これらのアプリケーションの主な特徴は、高速なデータ観測のオンライン到着と、実際の環境の動的性質によるデータ分布の変化に対する感受性である。
データストリームマイニングコミュニティは、新しい提案の比較と評価に関するいくつかの主要な課題と困難に直面している。
著者は必ずしも同じ推奨事項、実験的な評価手順、データセット、仮定に従うとは限らないため、文献で提案されているストリームアルゴリズムの比較は簡単ではない。
本稿では,ストリーム分類器とドリフト検出器の実験的評価において,データセットの選択に関する問題を緩和する。
そこで本研究では,実世界のデータを用いてストリームアルゴリズムをベンチマークする公開データリポジトリを提案する。
このリポジトリには、光学センサーを用いた病気ベクター昆虫の認識を含む、非常に関連する公衆衛生問題に関連する文献や新しいデータセットからの最も人気のあるデータセットが含まれている。
これらの新しいデータセットの主な利点は、新しい適応アルゴリズムの提案を適切に評価するために、それらの特徴と変更パターンの事前知識である。
また,本論文で利用可能なベンチマークデータセットに関する共通問題の批判的レビューとともに,データ分散の異なる種類の変更をもたらす特徴,理由,問題に関する詳細な議論を行った。
関連論文リスト
- Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - Online Model-based Anomaly Detection in Multivariate Time Series: Taxonomy, Survey, Research Challenges and Future Directions [0.017476232824732776]
時系列異常検出は、エンジニアリングプロセスにおいて重要な役割を果たす。
この調査では、オンラインとオフラインの区別とトレーニングと推論を行う新しい分類法を紹介した。
文献で使用される最も一般的なデータセットと評価指標、および詳細な分析を示す。
論文 参考訳(メタデータ) (2024-08-07T13:01:10Z) - OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。
本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。
実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文 参考訳(メタデータ) (2024-06-07T03:09:22Z) - OEBench: Investigating Open Environment Challenges in Real-World
Relational Data Streams [32.898349646434326]
我々はOEBenchという名のオープン環境ベンチマークを開発し、実世界のリレーショナルデータストリームにおけるオープン環境の課題を評価する。
オープン環境のシナリオに適用した場合,データ量の増加はモデル精度を常に向上させるには至らない。
論文 参考訳(メタデータ) (2023-08-29T06:43:29Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Domain Adaptative Causality Encoder [52.779274858332656]
我々は,適応因果同定と局所化の課題に対処するために,依存木の特徴と敵対学習を活用する。
我々は、テキストにあらゆる種類の因果関係を統合する新しい因果関係データセット、MedCausを提案する。
論文 参考訳(メタデータ) (2020-11-27T04:14:55Z) - Comparative Analysis of Extreme Verification Latency Learning Algorithms [3.3439097577935213]
本稿では、EVLアルゴリズムのいくつかの弱点と強みを指摘するための総合的な調査と比較分析を行う。
この研究は、この分野の既存のアルゴリズムのレビューを研究コミュニティに提供するための、非常に最初の取り組みである。
論文 参考訳(メタデータ) (2020-11-26T16:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。