論文の概要: Characterizing Transactional Databases for Frequent Itemset Mining
- arxiv url: http://arxiv.org/abs/2011.04378v1
- Date: Mon, 9 Nov 2020 12:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:55:10.764104
- Title: Characterizing Transactional Databases for Frequent Itemset Mining
- Title(参考訳): 頻繁なアイテムセットマイニングのためのトランザクションデータベースの特徴付け
- Authors: Christian Lezcano, Marta Arias
- Abstract要約: 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。
我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a study of the characteristics of transactional databases
used in frequent itemset mining. Such characterizations have typically been
used to benchmark and understand the data mining algorithms working on these
databases. The aim of our study is to give a picture of how diverse and
representative these benchmarking databases are, both in general but also in
the context of particular empirical studies found in the literature. Our
proposed list of metrics contains many of the existing metrics found in the
literature, as well as new ones. Our study shows that our list of metrics is
able to capture much of the datasets' inner complexity and thus provides a good
basis for the characterization of transactional datasets. Finally, we provide a
set of representative datasets based on our characterization that may be used
as a benchmark safely.
- Abstract(参考訳): 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
このような特徴付けは、一般的にこれらのデータベースで動くデータマイニングアルゴリズムのベンチマークと理解に使われてきた。
本研究の目的は,これらのベンチマークデータベースがいかに多様で代表的であるかを,文献にみられる特定の経験的研究の文脈において,概して示すことにある。
提案するメトリクスリストには,文献で見られる既存のメトリクスと,新たなメトリクスが含まれている。
我々の研究は、我々のメトリクスのリストがデータセットの内部の複雑さの多くを捉えることができ、トランザクションデータセットのキャラクタリゼーションに良い基礎を提供することを示している。
最後に、安全ベンチマークとして使用可能な特徴に基づく代表データセットのセットを提供する。
関連論文リスト
- Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge [4.579314354865921]
ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
論文 参考訳(メタデータ) (2023-10-18T04:31:06Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Analyzing categorical time series with the R package ctsfeatures [0.0]
Rパッケージctsfeaturesは、カテゴリの時系列を分析するための便利なツールセットを提供する。
いくつかの関数の出力は、クラスタリング、分類、外れ値検出など、従来の機械学習タスクの実行に使用することができる。
論文 参考訳(メタデータ) (2023-04-24T16:16:56Z) - Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文 参考訳(メタデータ) (2022-10-04T16:54:11Z) - Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。
データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。
これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文 参考訳(メタデータ) (2022-09-20T21:52:39Z) - An Assessment Tool for Academic Research Managers in the Third World [125.99533416395765]
一方のベースにあるデータが、もう一方のインデックスを推測するためにどのように使用できるかを示す。
SCOPUSの情報はWebから自由に取り除くことができるので、このアプローチは出版物のインパクトファクターを自由に推論することができる。
論文 参考訳(メタデータ) (2022-09-07T14:59:25Z) - Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification [39.01740345482624]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) (2022-05-04T15:33:00Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。