論文の概要: Forgetful Forests: high performance learning data structures for
streaming data under concept drift
- arxiv url: http://arxiv.org/abs/2212.07876v1
- Date: Thu, 15 Dec 2022 14:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:25:46.492978
- Title: Forgetful Forests: high performance learning data structures for
streaming data under concept drift
- Title(参考訳): Forgetful Forests:コンセプトドリフト下のストリーミングデータのための高性能学習データ構造
- Authors: Zhehu Yuan, Yinqi Sun, Dennis Shasha
- Abstract要約: 本稿では,インクリメンタルな計算と逐次的および確率的フィルタリングを組み合わせることで,木に基づく学習アルゴリズムを実現する。
アルゴリズムは最先端のインクリメンタルアルゴリズムの最大24倍高速である。
- 参考スコア(独自算出の注目度): 0.46193503399184266
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Database research can help machine learning performance in many ways. One way
is to design better data structures. This paper combines the use of incremental
computation and sequential and probabilistic filtering to enable "forgetful"
tree-based learning algorithms to cope with concept drift data (i.e., data
whose function from input to classification changes over time).
The forgetful algorithms described in this paper achieve high time
performance while maintaining high quality predictions on streaming data.
Specifically, the algorithms are up to 24 times faster than state-of-the-art
incremental algorithms with at most a 2% loss of accuracy, or at least twice
faster without any loss of accuracy. This makes such structures suitable for
high volume streaming applications.
- Abstract(参考訳): データベースの研究は多くの点で機械学習のパフォーマンスに役立つ。
ひとつの方法は、より良いデータ構造を設計することだ。
本稿では,インクリメンタルな計算と逐次的・確率的フィルタリングを組み合わせることで,木ベースの学習アルゴリズムが概念ドリフトデータ(入力から分類までの関数が時間とともに変化するデータ)に対処できることを示す。
本稿では,ストリーミングデータに対する高品質な予測を維持しつつ,高時間性能を実現する。
具体的には、アルゴリズムは最先端のインクリメンタルアルゴリズムよりも最大24倍高速で、少なくとも2%の精度が失われるか、少なくとも2倍の精度で精度が失われる。
これにより、このような構造は高容量のストリーミングアプリケーションに適している。
関連論文リスト
- Compact Neural Graphics Primitives with Learned Hash Probing [100.07267906666293]
学習したプローブを持つハッシュテーブルにはデメリットはなく,その結果,サイズと速度の組合せが好適であることを示す。
推論は、トレーニングが1.2-2.6倍遅い間、同じ品質で未処理のハッシュテーブルよりも高速である。
論文 参考訳(メタデータ) (2023-12-28T18:58:45Z) - Improved Frequency Estimation Algorithms with and without Predictions [22.382900492405938]
データストリームに現れる要素の頻度を推定することは、大規模データ分析において重要なタスクである。
理論的には,Hsu等の学習に基づくアルゴリズムを,予測を使わずに上回る新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:59:06Z) - Classic algorithms are fair learners: Classification Analysis of natural
weather and wildfire occurrences [0.0]
本稿では,決定木,ブースティング,サポートベクトルマシン,k-nearest Neighbors,浅部ニューラルネットワークなど,広く使われている古典的教師あり学習アルゴリズムの実証機能について概説する。
論文 参考訳(メタデータ) (2023-09-04T06:11:55Z) - Efficient Asynchronize Stochastic Gradient Algorithm with Structured
Data [19.883487404226805]
本研究では、入力データポイントの観点から、各イテレーションにおける計算の高速化を試みる。
具体的には、2層完全に接続されたニューラルネットワークの場合、トレーニングデータに特別な特性がある場合、各イテレーションはデータ次元のサブ線形時間で完了することができる。
論文 参考訳(メタデータ) (2023-05-13T20:45:27Z) - Refining neural network predictions using background knowledge [68.35246878394702]
学習システムにおける論理的背景知識を用いて,ラベル付きトレーニングデータの不足を補うことができることを示す。
そこで本研究では,修正された予測を元の予測に近い精度で検出する微分可能精細関数を提案する。
このアルゴリズムは、複雑なSATの公式に対して、非常に少ない繰り返しで最適に洗練され、勾配降下ができない解がしばしば見つかる。
論文 参考訳(メタデータ) (2022-06-10T10:17:59Z) - Physics Informed Shallow Machine Learning for Wind Speed Prediction [66.05661813632568]
イタリアの32カ所の標高10mの風速計から観測された大量の風のデータセットを分析した。
我々は、過去の風の履歴を用いて教師あり学習アルゴリズムを訓練し、その価値を将来予測する。
最適設計と性能は場所によって異なることがわかった。
論文 参考訳(メタデータ) (2022-04-01T14:55:10Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Towards Efficient and Scalable Acceleration of Online Decision Tree
Learning on FPGA [20.487660974785943]
ビッグデータの時代において、従来の決定木誘導アルゴリズムは大規模なデータセットを学習するのに適していない。
本稿では,現在最先端のオンライン学習モデルの1つであるHoeffdingツリーの帰納化を改善するために,新しいQuantileベースのアルゴリズムを提案する。
フィールドプログラミング可能なゲートアレイ上に,高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:23:43Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z) - Guidelines for enhancing data locality in selected machine learning
algorithms [0.0]
データ局所性を利用した機械学習アルゴリズムの性能向上手法の1つを分析する。
繰り返しのデータアクセスは、データ移動における冗長性と見なすことができる。
この研究は、結果を直接再利用することによって、これらの冗長性を避けるためのいくつかの機会を特定する。
論文 参考訳(メタデータ) (2020-01-09T14:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。