論文の概要: Bloom Filter Encoding for Machine Learning
- arxiv url: http://arxiv.org/abs/2512.19991v1
- Date: Tue, 23 Dec 2025 02:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.717739
- Title: Bloom Filter Encoding for Machine Learning
- Title(参考訳): 機械学習のためのブルームフィルタ符号化
- Authors: John Cartmell, Mihaela Cardei, Ionut Cardei,
- Abstract要約: 本稿では,Bloomフィルタ変換を用いて機械学習のデータ前処理を行う手法を提案する。
各サンプルはコンパクトでプライバシを保存するビット配列に符号化される。
本手法をSMS Spam Collection, ECG200, adult 50K, CDC Diabetes, MNIST, Fashion MNISTの6つのデータセットで検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method that uses the Bloom filter transform to preprocess data for machine learning. Each sample is encoded into a compact, privacy-preserving bit array. This reduces memory use and protects the original data while keeping enough structure for accurate classification. We test the method on six datasets: SMS Spam Collection, ECG200, Adult 50K, CDC Diabetes, MNIST, and Fashion MNIST. Four classifiers are used: Extreme Gradient Boosting, Deep Neural Networks, Convolutional Neural Networks, and Logistic Regression. Results show that models trained on Bloom filter encodings achieve accuracy similar to models trained on raw data or other transforms. At the same time, the method provides memory savings while enhancing privacy. These results suggest that the Bloom filter transform is an efficient preprocessing approach for diverse machine learning tasks.
- Abstract(参考訳): 本稿では,Bloomフィルタ変換を用いて機械学習のデータ前処理を行う手法を提案する。
各サンプルはコンパクトでプライバシを保存するビット配列に符号化される。
これによりメモリ使用量が少なくなり、正確な分類に十分な構造を維持しながら元のデータを保護する。
本手法をSMS Spam Collection, ECG200, adult 50K, CDC Diabetes, MNIST, Fashion MNISTの6つのデータセットで検証した。
4つの分類器が使用される: Extreme Gradient Boosting、Deep Neural Networks、Convolutional Neural Networks、Logistic Regression。
その結果,ブルームフィルタ符号化法でトレーニングしたモデルは,生データや他の変換法でトレーニングしたモデルと同様の精度が得られた。
同時に、プライバシを向上しつつ、メモリの節約も提供する。
これらの結果から,Bloomフィルタ変換は機械学習タスクにおいて,効率的な事前処理手法であることが示唆された。
関連論文リスト
- Learned LSM-trees: Two Approaches Using Learned Bloom Filters [0.0]
キーバリューストアは書き込み最適化のためにログ構造化マージ(LSM)木に大きく依存している。
Bloomフィルタのような補助構造は役に立つが、ツリーの深さとデータセットサイズでスケールするメモリコストを課す。
学習データ構造の最近の進歩は、機械学習モデルがこれらのコンポーネントを拡張したり置き換えたりする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-24T04:23:52Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Learning from Convolution-based Unlearnable Datasets [5.332412565926725]
ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。
本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。
学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
論文 参考訳(メタデータ) (2024-11-04T01:51:50Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Compressing (Multidimensional) Learned Bloom Filters [7.6058140480517356]
Bloomフィルタは、要素が基礎となる集合に含まれていないか、あるいは特定のエラー率に含まれていないかを明らかにする。
ディープラーニングモデルは、このメンバシップテストの問題を解決するために使用される。
学習したブルームフィルタの利点は、膨大なデータを考慮する場合にのみ明らかである。
論文 参考訳(メタデータ) (2022-08-05T07:54:48Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。