論文の概要: Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth
- arxiv url: http://arxiv.org/abs/2412.03611v1
- Date: Wed, 04 Dec 2024 14:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:26.732047
- Title: Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth
- Title(参考訳): 地中真実のないデータストリームにおける周波数推定のための学習ベーススケッチ
- Authors: Xinyu Yuan, Yan Qiao, Meng Li, Zhenchun Wei, Cuiying Feng,
- Abstract要約: より実践的な学習ベース推定フレームワークであるUCL-sketchを提案する。
根拠のない等価学習によるオンライントレーニングと、論理的推定バケットを備えた高度にスケーラブルなアーキテクチャ。
その結果,本手法はキーごとの精度と分布に関する既存のスケッチよりも優れていた。
- 参考スコア(独自算出の注目度): 8.643366221221351
- License:
- Abstract: Estimating the frequency of items on the high-volume, fast data stream has been extensively studied in many areas, such as database and network measurement. Traditional sketch algorithms only allow to give very rough estimates with limited memory cost, whereas some learning-augmented algorithms have been proposed recently, their offline framework requires actual frequencies that are challenging to access in general for training, and speed is too slow for real-time processing, despite the still coarse-grained accuracy. To this end, we propose a more practical learning-based estimation framework namely UCL-sketch, by following the line of equation-based sketch to estimate per-key frequencies. In a nutshell, there are two key techniques: online training via equivalent learning without ground truth, and highly scalable architecture with logical estimation buckets. We implemented experiments on both real-world and synthetic datasets. The results demonstrate that our method greatly outperforms existing state-of-the-art sketches regarding per-key accuracy and distribution, while preserving resource efficiency. Our code is attached in the supplementary material, and will be made publicly available at https://github.com/Y-debug-sys/UCL-sketch.
- Abstract(参考訳): 高体積高速データストリーム上の項目の頻度を推定する手法は,データベースやネットワーク計測など,多くの分野で広く研究されている。
従来のスケッチアルゴリズムでは、メモリコストが制限されるような大まかな見積しか行えないが、最近いくつかの学習強化アルゴリズムが提案されている。
そこで本研究では,より実践的な学習ベース推定フレームワークであるUCL-Sketchを提案する。
一言で言えば、オンライントレーニングは、根拠のない同等の学習によるオンライントレーニングと、論理的推定バケットを備えた高度にスケーラブルなアーキテクチャの2つだ。
実世界のデータセットと合成データセットの両方で実験を行った。
その結果,提案手法は,資源効率を保ちながら,キーごとの精度と分布に関する既存のスケッチを著しく上回ることを示した。
私たちのコードは補足資料に添付されており、https://github.com/Y-debug-sys/UCL-sketch.comで公開されます。
関連論文リスト
- SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - Learning-Based Heavy Hitters and Flow Frequency Estimation in Streams [9.22255012731159]
そこで本研究では,まず,大ヒット数,トップk,フロー周波数推定を識別する,LSSと呼ばれる競合カウンタベースのアルゴリズムを提案する。
以上の結果から, LSSは重打点, トップk, 流速推定において, スペースセービングの精度と効率を高めることができることが示された。
論文 参考訳(メタデータ) (2024-06-24T02:31:00Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Convolutional Sparse Coding Fast Approximation with Application to
Seismic Reflectivity Estimation [9.005280130480308]
2~5回の反復で畳み込みスパース符号の良好な近似を生成する古典的反復しきい値アルゴリズムの高速化版を提案する。
提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。
論文 参考訳(メタデータ) (2021-06-29T12:19:07Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。