論文の概要: LakeBench: Benchmarks for Data Discovery over Data Lakes
- arxiv url: http://arxiv.org/abs/2307.04217v1
- Date: Sun, 9 Jul 2023 16:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:49:46.601677
- Title: LakeBench: Benchmarks for Data Discovery over Data Lakes
- Title(参考訳): lakebench: データレイク上のデータディスカバリのベンチマーク
- Authors: Kavitha Srinivas, Julian Dolby, Ibrahim Abdelaziz, Oktie Hassanzadeh,
Harsha Kokel, Aamod Khatiwada, Tejaswini Pedapati, Subhajit Chaudhury, Horst
Samulowitz
- Abstract要約: データレポジトリで関連するテーブルを見つけるためのベンチマークを開発する。
CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから引き出された表を使用します。
既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。
- 参考スコア(独自算出の注目度): 21.32260396393041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within enterprises, there is a growing need to intelligently navigate data
lakes, specifically focusing on data discovery. Of particular importance to
enterprises is the ability to find related tables in data repositories. These
tables can be unionable, joinable, or subsets of each other. There is a dearth
of benchmarks for these tasks in the public domain, with related work targeting
private datasets. In LakeBench, we develop multiple benchmarks for these tasks
by using the tables that are drawn from a diverse set of data sources such as
government data from CKAN, Socrata, and the European Central Bank. We compare
the performance of 4 publicly available tabular foundational models on these
tasks. None of the existing models had been trained on the data discovery tasks
that we developed for this benchmark; not surprisingly, their performance shows
significant room for improvement. The results suggest that the establishment of
such benchmarks may be useful to the community to build tabular models usable
for data discovery in data lakes.
- Abstract(参考訳): 企業では、データ発見を中心に、データレイクをインテリジェントにナビゲートする必要性が高まっています。
企業にとって特に重要なのは、関連するテーブルをデータレポジトリで見つける能力だ。
これらのテーブルは互いに結合可能、結合可能、あるいはサブセットでもよい。
パブリックドメインにはこれらのタスクのベンチマークが多数あり、関連する作業はプライベートデータセットをターゲットにしている。
LakeBenchでは、CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから抽出された表を用いて、これらのタスクの複数のベンチマークを作成する。
これらのタスクにおける4つの表型基礎モデルの性能を比較した。
既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。
その結果,このようなベンチマークの確立は,データレイクにおけるデータ発見に有用な表型モデルを構築する上で,コミュニティにとって有用であることが示唆された。
関連論文リスト
- 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [0.0]
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
論文 参考訳(メタデータ) (2024-02-09T09:48:38Z) - Towards More Practical Group Activity Detection: A New Benchmark and
Model [67.06883389517986]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。
Caf'eと呼ばれる新しいデータセットを提示し、より実用的な評価シナリオとメトリクスを提示します。
また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文 参考訳(メタデータ) (2023-12-05T16:48:17Z) - Generative Benchmark Creation for Table Union Search [4.970364068620607]
本稿では、生成モデルを用いて特定の特性を持つテーブルを作成する新しい方法を提案する。
新しいベンチマークは、手作業によるベンチマークよりも、すべてのメソッドで難しいことが示されています。
論文 参考訳(メタデータ) (2023-08-07T19:26:09Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Characterizing Transactional Databases for Frequent Itemset Mining [0.0]
本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。
我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
論文 参考訳(メタデータ) (2020-11-09T12:26:14Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。