論文の概要: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- arxiv url: http://arxiv.org/abs/2402.06282v1
- Date: Fri, 9 Feb 2024 09:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:43:51.534100
- Title: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- Title(参考訳): Retrieve, Merge, Predict: データレイクによるテーブルの拡張
- Authors: Riccardo Cappuzzo (1), Gael Varoquaux (1), Aimee Coelho (2), Paolo
Papotti (3) ((1) SODA Team - Inria Saclay, (2) Dataiku, (3) EURECOM)
- Abstract要約: 結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an in-depth analysis of data discovery in data lakes, focusing on
table augmentation for given machine learning tasks. We analyze alternative
methods used in the three main steps: retrieving joinable tables, merging
information, and predicting with the resultant table. As data lakes, the paper
uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for
benchmarking this data discovery task -- and Open Data US, a well-referenced
real data lake. Through systematic exploration on both lakes, our study
outlines the importance of accurately retrieving join candidates and the
efficiency of simple merging methods. We report new insights on the benefits of
existing solutions and on their limitations, aiming at guiding future research
in this space.
- Abstract(参考訳): データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。
統合可能なテーブルの検索、情報のマージ、結果のテーブルによる予測という3つの主要なステップで使用される代替手法を分析した。
データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。
本研究は,両湖の系統的調査を通じて,接合候補を正確に検索することの重要性と,簡便なマージ手法の効率性について概説する。
我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - LakeBench: Benchmarks for Data Discovery over Data Lakes [21.32260396393041]
データレポジトリで関連するテーブルを見つけるためのベンチマークを開発する。
CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから引き出された表を使用します。
既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。
論文 参考訳(メタデータ) (2023-07-09T16:16:11Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - METAM: Goal-Oriented Data Discovery [9.73435089036831]
METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
論文 参考訳(メタデータ) (2023-04-18T15:42:25Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。