論文の概要: A Critical Analysis of Classifier Selection in Learned Bloom Filters
- arxiv url: http://arxiv.org/abs/2211.15565v1
- Date: Mon, 28 Nov 2022 17:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:56:30.797893
- Title: A Critical Analysis of Classifier Selection in Learned Bloom Filters
- Title(参考訳): 学習ブルームフィルタにおける分類器選択の臨界解析
- Authors: Dario Malchiodi, Davide Raimondi, Giacomo Fumagalli, Raffaele
Giancarlo, Marco Frasca
- Abstract要約: フィルタ構築に使用されるデータの"複雑さ"は、そのパフォーマンスに大きく影響する可能性がある。
本稿では,学習ブルームフィルタの設計,解析,実装のための新しい手法を提案する。
提案手法とサポートソフトウェアは有効かつ有用であることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 0.3359875577705538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned Bloom Filters, i.e., models induced from data via machine learning
techniques and solving the approximate set membership problem, have recently
been introduced with the aim of enhancing the performance of standard Bloom
Filters, with special focus on space occupancy. Unlike in the classical case,
the "complexity" of the data used to build the filter might heavily impact on
its performance. Therefore, here we propose the first in-depth analysis, to the
best of our knowledge, for the performance assessment of a given Learned Bloom
Filter, in conjunction with a given classifier, on a dataset of a given
classification complexity. Indeed, we propose a novel methodology, supported by
software, for designing, analyzing and implementing Learned Bloom Filters in
function of specific constraints on their multi-criteria nature (that is,
constraints involving space efficiency, false positive rate, and reject time).
Our experiments show that the proposed methodology and the supporting software
are valid and useful: we find out that only two classifiers have desirable
properties in relation to problems with different data complexity, and,
interestingly, none of them has been considered so far in the literature. We
also experimentally show that the Sandwiched variant of Learned Bloom filters
is the most robust to data complexity and classifier performance variability,
as well as those usually having smaller reject times. The software can be
readily used to test new Learned Bloom Filter proposals, which can be compared
with the best ones identified here.
- Abstract(参考訳): 学習されたブルームフィルタ、すなわち、機械学習技術を介してデータから誘導されるモデルと、近似された集合メンバシップ問題の解決は、特に空間占有に焦点を当てた標準的なブルームフィルタの性能向上を目的として最近導入された。
古典的な場合とは異なり、フィルタを構築するために使用されるデータの「複雑さ」は、その性能に大きな影響を与える可能性がある。
そこで本研究では,与えられた分類複雑性のデータセット上で,与えられた学習ブルームフィルタの性能評価を行うための,私たちの知識を最大限活用するための,最初の深度解析を提案する。
実際、我々はソフトウェアがサポートする新しい手法を提案し、学習されたブルームフィルタの設計、解析、実装を行い、そのマルチクリトリア性(すなわち、空間効率、偽陽性率、拒絶時間を含む制約)に特定の制約を課す。
提案手法と支援ソフトウェアが有効で有用であることを示す実験により,データ複雑性の異なる問題に対して,2つの分類器だけが望ましい特性を持つことが判明し,文献にはこれまで検討されていない。
また,学習されたブルームフィルタのサンドウィッチ化が,データ複雑性や分類器の性能変動に対して最も頑健であることも実験的に示した。
このソフトウェアは、新たに学習されたbloomフィルタの提案をテストするために簡単に利用できる。
関連論文リスト
- A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Compressing (Multidimensional) Learned Bloom Filters [7.6058140480517356]
Bloomフィルタは、要素が基礎となる集合に含まれていないか、あるいは特定のエラー率に含まれていないかを明らかにする。
ディープラーニングモデルは、このメンバシップテストの問題を解決するために使用される。
学習したブルームフィルタの利点は、膨大なデータを考慮する場合にのみ明らかである。
論文 参考訳(メタデータ) (2022-08-05T07:54:48Z) - Broad Recommender System: An Efficient Nonlinear Collaborative Filtering
Approach [56.12815715932561]
我々はBroad Collaborative Filtering (BroadCF)と呼ばれる新しい広帯域リコメンデータシステムを提案する。
深層ニューラルネットワーク(DNN)の代わりに、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として、Broad Learning System(BLS)が使用されている。
7つのベンチマークデータセットで実施された大規模な実験により、提案したBroadCFアルゴリズムの有効性が確認された。
論文 参考訳(メタデータ) (2022-04-20T01:25:08Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Nonnegative OPLS for Supervised Design of Filter Banks: Application to
Image and Audio Feature Extraction [0.0]
非負のデータを扱うアプリケーションに対して,教師付き方式でフィルタバンクを設計する手法を提案する。
提案手法により得られた特徴の識別能力について, 2つの異なる, 広く研究されている応用について分析する。
論文 参考訳(メタデータ) (2021-12-22T23:58:25Z) - On the Choice of General Purpose Classifiers in Learned Bloom Filters:
An Initial Analysis Within Basic Filters [0.41998444721319217]
ブルームフィルタのいくつかのバージョンが検討されており、古典的なフィルタよりも有利である。
それぞれが、データ構造の学習された部分である分類器を使用する。
特定の分類器がどの状況で利用できるかについての体系的な研究は行われていない。
論文 参考訳(メタデータ) (2021-12-13T11:15:41Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z) - Partitioned Learned Bloom Filter [31.748077944821315]
最適化問題として最適モデル利用の問題の枠組みを示す。
多くの場合、ほぼ最適性能を達成できるアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-06-05T00:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。