Fugu-MT 論文翻訳(概要): Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth

論文の概要: Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth

arxiv url: http://arxiv.org/abs/2412.03611v1
Date: Wed, 04 Dec 2024 14:00:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.717939
Title: Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth
Title（参考訳）: 地中真実のないデータストリームにおける周波数推定のための学習ベーススケッチ
Authors: Xinyu Yuan, Yan Qiao, Meng Li, Zhenchun Wei, Cuiying Feng,
Abstract要約: より実践的な学習ベース推定フレームワークであるUCL-sketchを提案する。根拠のない等価学習によるオンライントレーニングと、論理的推定バケットを備えた高度にスケーラブルなアーキテクチャ。その結果,本手法はキーごとの精度と分布に関する既存のスケッチよりも優れていた。
参考スコア（独自算出の注目度）: 8.643366221221351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating the frequency of items on the high-volume, fast data stream has been extensively studied in many areas, such as database and network measurement. Traditional sketch algorithms only allow to give very rough estimates with limited memory cost, whereas some learning-augmented algorithms have been proposed recently, their offline framework requires actual frequencies that are challenging to access in general for training, and speed is too slow for real-time processing, despite the still coarse-grained accuracy. To this end, we propose a more practical learning-based estimation framework namely UCL-sketch, by following the line of equation-based sketch to estimate per-key frequencies. In a nutshell, there are two key techniques: online training via equivalent learning without ground truth, and highly scalable architecture with logical estimation buckets. We implemented experiments on both real-world and synthetic datasets. The results demonstrate that our method greatly outperforms existing state-of-the-art sketches regarding per-key accuracy and distribution, while preserving resource efficiency. Our code is attached in the supplementary material, and will be made publicly available at https://github.com/Y-debug-sys/UCL-sketch.
Abstract（参考訳）: 高体積高速データストリーム上の項目の頻度を推定する手法は,データベースやネットワーク計測など,多くの分野で広く研究されている。従来のスケッチアルゴリズムでは、メモリコストが制限されるような大まかな見積しか行えないが、最近いくつかの学習強化アルゴリズムが提案されている。そこで本研究では,より実践的な学習ベース推定フレームワークであるUCL-Sketchを提案する。一言で言えば、オンライントレーニングは、根拠のない同等の学習によるオンライントレーニングと、論理的推定バケットを備えた高度にスケーラブルなアーキテクチャの2つだ。実世界のデータセットと合成データセットの両方で実験を行った。その結果,提案手法は,資源効率を保ちながら,キーごとの精度と分布に関する既存のスケッチを著しく上回ることを示した。私たちのコードは補足資料に添付されており、https://github.com/Y-debug-sys/UCL-sketch.comで公開されます。

関連論文リスト

Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文参考訳（メタデータ） (2026-03-03T00:42:34Z)
Compressive Meta-Learning [49.300635370079874]
圧縮学習(Compressive learning)は、ランダムで非線形な特徴を用いることで効率的な処理を可能にするフレームワークである。圧縮学習手法の符号化段階と復号段階の両方をメタラーニングするフレームワークを提案する。ニューラルネットワークベースの圧縮PCA、圧縮リッジ回帰、圧縮k平均、オートエンコーダなど、複数のアプリケーションについて検討する。
論文参考訳（メタデータ） (2025-08-14T22:08:06Z)
PROL : Rehearsal Free Continual Learning in Streaming Data via Prompt Online Learning [17.230781041043823]
4つの主要コンポーネントを含むオンライン連続学習(OCL)のための新しいプロンプトベース手法を提案する。提案手法は,CIFAR100, ImageNet-R, ImageNet-A, CUBデータセットにおける現在のSOTAよりも高い性能を実現する。
論文参考訳（メタデータ） (2025-07-16T15:04:46Z)
BinConv: A Neural Architecture for Ordinal Encoding in Time-Series Forecasting [5.827431686047649]
確率予測のために設計された完全畳み込みニューラルネットワークアーキテクチャである textbfBinConv を提案する。 BinConvは、ポイントと確率予測の両方で広く使用されているベースラインデータセットと比較して、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-05-30T13:41:39Z)
Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文参考訳（メタデータ） (2025-01-14T02:33:40Z)
SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文参考訳（メタデータ） (2024-11-20T10:23:21Z)
Learning-Based Heavy Hitters and Flow Frequency Estimation in Streams [9.22255012731159]
そこで本研究では,まず,大ヒット数,トップk,フロー周波数推定を識別する,LSSと呼ばれる競合カウンタベースのアルゴリズムを提案する。以上の結果から, LSSは重打点, トップk, 流速推定において, スペースセービングの精度と効率を高めることができることが示された。
論文参考訳（メタデータ） (2024-06-24T02:31:00Z)
Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文参考訳（メタデータ） (2024-01-29T03:42:37Z)
Benchmarking Neural Network Training Algorithms [52.890134877995195]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文参考訳（メタデータ） (2023-06-12T15:21:02Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
Learnability with Time-Sharing Computational Resource Concerns [65.268245109828]
本稿では,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。このフレームワークは、入ってくるデータストリームが潜在的に無限であるようなストリーム学習に自然に適用できる。これはまた、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に対する理論的視点を提供するかもしれない。
論文参考訳（メタデータ） (2023-05-03T15:54:23Z)
Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文参考訳（メタデータ） (2023-03-20T14:50:27Z)
Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。簡単なベースラインは、この評価の下で最先端のCL法より優れている。これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文参考訳（メタデータ） (2023-02-02T12:21:10Z)
Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文参考訳（メタデータ） (2022-02-04T15:46:27Z)
Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。 forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文参考訳（メタデータ） (2021-11-24T16:47:34Z)
Convolutional Sparse Coding Fast Approximation with Application to Seismic Reflectivity Estimation [9.005280130480308]
2～5回の反復で畳み込みスパース符号の良好な近似を生成する古典的反復しきい値アルゴリズムの高速化版を提案する。提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。
論文参考訳（メタデータ） (2021-06-29T12:19:07Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)
Low-Rank Robust Online Distance/Similarity Learning based on the Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文参考訳（メタデータ） (2020-10-07T08:38:34Z)
Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文参考訳（メタデータ） (2020-07-01T04:48:49Z)
On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文参考訳（メタデータ） (2020-02-15T23:25:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。