論文の概要: Characterizing Transactional Databases for Frequent Itemset Mining
- arxiv url: http://arxiv.org/abs/2011.04378v1
- Date: Mon, 9 Nov 2020 12:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:55:10.764104
- Title: Characterizing Transactional Databases for Frequent Itemset Mining
- Title(参考訳): 頻繁なアイテムセットマイニングのためのトランザクションデータベースの特徴付け
- Authors: Christian Lezcano, Marta Arias
- Abstract要約: 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。
我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a study of the characteristics of transactional databases
used in frequent itemset mining. Such characterizations have typically been
used to benchmark and understand the data mining algorithms working on these
databases. The aim of our study is to give a picture of how diverse and
representative these benchmarking databases are, both in general but also in
the context of particular empirical studies found in the literature. Our
proposed list of metrics contains many of the existing metrics found in the
literature, as well as new ones. Our study shows that our list of metrics is
able to capture much of the datasets' inner complexity and thus provides a good
basis for the characterization of transactional datasets. Finally, we provide a
set of representative datasets based on our characterization that may be used
as a benchmark safely.
- Abstract(参考訳): 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
このような特徴付けは、一般的にこれらのデータベースで動くデータマイニングアルゴリズムのベンチマークと理解に使われてきた。
本研究の目的は,これらのベンチマークデータベースがいかに多様で代表的であるかを,文献にみられる特定の経験的研究の文脈において,概して示すことにある。
提案するメトリクスリストには,文献で見られる既存のメトリクスと,新たなメトリクスが含まれている。
我々の研究は、我々のメトリクスのリストがデータセットの内部の複雑さの多くを捉えることができ、トランザクションデータセットのキャラクタリゼーションに良い基礎を提供することを示している。
最後に、安全ベンチマークとして使用可能な特徴に基づく代表データセットのセットを提供する。
関連論文リスト
- Benchmark Data Repositories for Better Benchmarking [26.15831504718431]
機械学習の研究では、ベンチマークデータセットのパフォーマンスを通じてアルゴリズムを評価することが一般的である。
我々は、これらの$textitbenchmarkデータレポジトリの状況と、ベンチマークを改善する上で彼らが果たす役割を分析します。
論文 参考訳(メタデータ) (2024-10-31T16:30:08Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - On the performativity of SDG classifications in large bibliometric databases [0.0]
大規模な文献データベースは、それぞれの分類において国連の持続可能な開発目標を引き継いだ。
本研究では,大規模言語モデル (LLM) の特徴を用いて,多様なSDG分類から得られる「データバイアス」をバイオロメトリデータに応用することを提案する。
論文 参考訳(メタデータ) (2024-05-05T17:28:54Z) - A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge [4.579314354865921]
ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
論文 参考訳(メタデータ) (2023-10-18T04:31:06Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文 参考訳(メタデータ) (2022-10-04T16:54:11Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。