論文の概要: Improving the performance of bagging ensembles for data streams through
mini-batching
- arxiv url: http://arxiv.org/abs/2112.09834v1
- Date: Sat, 18 Dec 2021 03:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 04:05:08.995847
- Title: Improving the performance of bagging ensembles for data streams through
mini-batching
- Title(参考訳): ミニバッチによるデータストリーム用袋詰めアンサンブルの性能向上
- Authors: Guilherme Cassales, Heitor Gomes, Albert Bifet, Bernhard Pfahringer,
Hermes Senger
- Abstract要約: 機械学習アプリケーションは、データが連続データストリームの形式で収集される動的な環境に対処する必要がある。
ストリーム処理アルゴリズムには、計算資源とデータ進化への適応性に関する追加の要件がある。
本稿では,マルチコア環境におけるストリームマイニングのための複数のアンサンブルアルゴリズムのメモリアクセス局所性と性能を向上するミニバッチ方式を提案する。
- 参考スコア(独自算出の注目度): 9.418151228755834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Often, machine learning applications have to cope with dynamic environments
where data are collected in the form of continuous data streams with
potentially infinite length and transient behavior. Compared to traditional
(batch) data mining, stream processing algorithms have additional requirements
regarding computational resources and adaptability to data evolution. They must
process instances incrementally because the data's continuous flow prohibits
storing data for multiple passes. Ensemble learning achieved remarkable
predictive performance in this scenario. Implemented as a set of (several)
individual classifiers, ensembles are naturally amendable for task parallelism.
However, the incremental learning and dynamic data structures used to capture
the concept drift increase the cache misses and hinder the benefit of
parallelism. This paper proposes a mini-batching strategy that can improve
memory access locality and performance of several ensemble algorithms for
stream mining in multi-core environments. With the aid of a formal framework,
we demonstrate that mini-batching can significantly decrease the reuse distance
(and the number of cache misses). Experiments on six different state-of-the-art
ensemble algorithms applying four benchmark datasets with varied
characteristics show speedups of up to 5X on 8-core processors. These benefits
come at the expense of a small reduction in predictive performance.
- Abstract(参考訳): 多くの場合、機械学習アプリケーションは、データが無限の長さと一時的な振る舞いを持つ連続データストリーム形式で収集される動的環境に対処する必要がある。
従来の(バッチ)データマイニングと比較して、ストリーム処理アルゴリズムには計算リソースとデータ進化への適応性に関する追加の要件がある。
データの連続フローは複数のパスに対してデータの保存を禁止するため、インスタンスをインクリメンタルに処理しなければならない。
アンサンブル学習はこのシナリオで顕著な予測性能を達成した。
個別分類器の集合として実装され、アンサンブルはタスク並列性に対して自然に修正可能である。
しかし、概念のドリフトを捉えるために使われる漸進的な学習と動的データ構造はキャッシュミスを増やし、並列性の利点を阻害する。
本稿では,マルチコア環境におけるストリームマイニングのためのメモリアクセスローカリティとアンサンブルアルゴリズムの性能を向上させるためのミニバッチ戦略を提案する。
形式的フレームワークの助けを借りて,ミニバッチが再利用距離(およびキャッシュミス数)を大幅に削減できることを実証する。
異なる特性を持つ4つのベンチマークデータセットを適用した6種類の最先端アンサンブルアルゴリズムの実験は、8コアプロセッサ上で最大5倍のスピードアップを示す。
これらの利点は、予測性能の低下を犠牲にしている。
関連論文リスト
- Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Less is More: Reducing Task and Model Complexity for 3D Point Cloud
Semantic Segmentation [26.94284739177754]
新しいパイプラインは、より優れたセグメンテーション精度を達成するために、より少ない地平線アノテーションを必要とする。
Sparse Depthwise Separable Convolutionモジュールは、ネットワークパラメータ数を著しく削減する。
新しいspatio-Temporal Redundant Frame Downsampling (ST-RFD) 法は、トレーニングデータフレームのより多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2023-03-20T15:36:10Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Improved Multi-objective Data Stream Clustering with Time and Memory
Optimization [0.0]
本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。
2つの異なる目的関数を使用して、データの異なる側面をキャプチャする。
実験により, 任意の形状, コンパクト, 分離されたクラスタにデータストリームを分割できることを示す。
論文 参考訳(メタデータ) (2022-01-13T17:05:56Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Sparse Convolutions on Continuous Domains for Point Cloud and Event
Stream Networks [14.664758777845572]
本稿では,ポイントクラウドやイベントストリームのような非構造化連続データに対する畳み込み演算子のエレガントなスパース行列に基づく解釈を提案する。
これらの操作で構築されたネットワークは、既存の方法よりも桁違いに高速にトレーニングできることを示す。
また、演算子をイベントストリーム処理に適用し、数十万のイベントのストリームで複数のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-12-02T13:05:02Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。