Fugu-MT 論文翻訳(概要): Characterizing Transactional Databases for Frequent Itemset Mining

論文の概要: Characterizing Transactional Databases for Frequent Itemset Mining

arxiv url: http://arxiv.org/abs/2011.04378v1
Date: Mon, 9 Nov 2020 12:26:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 01:55:10.764104
Title: Characterizing Transactional Databases for Frequent Itemset Mining
Title（参考訳）: 頻繁なアイテムセットマイニングのためのトランザクションデータベースの特徴付け
Authors: Christian Lezcano, Marta Arias
Abstract要約: 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a study of the characteristics of transactional databases used in frequent itemset mining. Such characterizations have typically been used to benchmark and understand the data mining algorithms working on these databases. The aim of our study is to give a picture of how diverse and representative these benchmarking databases are, both in general but also in the context of particular empirical studies found in the literature. Our proposed list of metrics contains many of the existing metrics found in the literature, as well as new ones. Our study shows that our list of metrics is able to capture much of the datasets' inner complexity and thus provides a good basis for the characterization of transactional datasets. Finally, we provide a set of representative datasets based on our characterization that may be used as a benchmark safely.
Abstract（参考訳）: 本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。このような特徴付けは、一般的にこれらのデータベースで動くデータマイニングアルゴリズムのベンチマークと理解に使われてきた。本研究の目的は,これらのベンチマークデータベースがいかに多様で代表的であるかを,文献にみられる特定の経験的研究の文脈において,概して示すことにある。提案するメトリクスリストには,文献で見られる既存のメトリクスと,新たなメトリクスが含まれている。我々の研究は、我々のメトリクスのリストがデータセットの内部の複雑さの多くを捉えることができ、トランザクションデータセットのキャラクタリゼーションに良い基礎を提供することを示している。最後に、安全ベンチマークとして使用可能な特徴に基づく代表データセットのセットを提供する。

関連論文リスト

Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。コード、評価データセット、結果はGitHubで公開しています。
論文参考訳（メタデータ） (2026-01-08T16:46:06Z)
Universal Embeddings of Tabular Data [0.0]
リレーショナルデータベースにおけるタブラリデータは、産業データのかなりの部分を占めている。本稿では,予め定義された目標を満たさずにダウンストリームタスクを実行するための,タスク非依存な表データの埋め込みを普遍的に生成するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T11:45:29Z)
Adapting General-Purpose Embedding Models to Private Datasets Using Keyword-based Retrieval [19.57735892785756]
BMEmbedは、汎用テキスト埋め込みモデルをプライベートデータセットに適用するための新しい手法である。モデル適応を容易にするために,キーワードベースの検索結果のランキングからスーパーバイザリー信号を構築する。我々は、BMEmbedをさまざまな領域、データセット、モデルにまたがって評価し、検索性能が一貫した改善を示した。
論文参考訳（メタデータ） (2025-05-31T03:06:09Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Benchmark Data Repositories for Better Benchmarking [26.15831504718431]
機械学習の研究では、ベンチマークデータセットのパフォーマンスを通じてアルゴリズムを評価することが一般的である。我々は、これらの$textitbenchmarkデータレポジトリの状況と、ベンチマークを改善する上で彼らが果たす役割を分析します。
論文参考訳（メタデータ） (2024-10-31T16:30:08Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文参考訳（メタデータ） (2024-06-27T17:55:31Z)
On the performativity of SDG classifications in large bibliometric databases [0.0]
大規模な文献データベースは、それぞれの分類において国連の持続可能な開発目標を引き継いだ。本研究では,大規模言語モデル (LLM) の特徴を用いて,多様なSDG分類から得られる「データバイアス」をバイオロメトリデータに応用することを提案する。
論文参考訳（メタデータ） (2024-05-05T17:28:54Z)
A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge [4.579314354865921]
ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
論文参考訳（メタデータ） (2023-10-18T04:31:06Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文参考訳（メタデータ） (2022-10-04T16:54:11Z)
BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文参考訳（メタデータ） (2020-08-11T17:04:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。