論文の概要: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- arxiv url: http://arxiv.org/abs/2402.06282v2
- Date: Tue, 13 Feb 2024 14:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 12:05:42.591812
- Title: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- Title(参考訳): Retrieve, Merge, Predict: データレイクによるテーブルの拡張
- Authors: Riccardo Cappuzzo (1), Gael Varoquaux (1), Aimee Coelho (2), Paolo
Papotti (3) ((1) SODA Team - Inria Saclay, (2) Dataiku, (3) EURECOM)
- Abstract要約: 結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an in-depth analysis of data discovery in data lakes, focusing on
table augmentation for given machine learning tasks. We analyze alternative
methods used in the three main steps: retrieving joinable tables, merging
information, and predicting with the resultant table. As data lakes, the paper
uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for
benchmarking this data discovery task -- and Open Data US, a well-referenced
real data lake. Through systematic exploration on both lakes, our study
outlines the importance of accurately retrieving join candidates and the
efficiency of simple merging methods. We report new insights on the benefits of
existing solutions and on their limitations, aiming at guiding future research
in this space.
- Abstract(参考訳): データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。
統合可能なテーブルの検索、情報のマージ、結果のテーブルによる予測という3つの主要なステップで使用される代替手法を分析した。
データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。
本研究は,両湖の系統的調査を通じて,接合候補を正確に検索することの重要性と,簡便なマージ手法の効率性について概説する。
我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - LakeBench: Benchmarks for Data Discovery over Data Lakes [21.32260396393041]
データレポジトリで関連するテーブルを見つけるためのベンチマークを開発する。
CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから引き出された表を使用します。
既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。
論文 参考訳(メタデータ) (2023-07-09T16:16:11Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - METAM: Goal-Oriented Data Discovery [9.73435089036831]
METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
論文 参考訳(メタデータ) (2023-04-18T15:42:25Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。