論文の概要: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- arxiv url: http://arxiv.org/abs/2402.06282v3
- Date: Thu, 23 May 2024 15:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:59:47.131170
- Title: Retrieve, Merge, Predict: Augmenting Tables with Data Lakes
- Title(参考訳): Retrieve, Merge, Predict: データレイクによるテーブルの拡張
- Authors: Riccardo Cappuzzo, Aimee Coelho, Felix Lefebvre, Paolo Papotti, Gael Varoquaux,
- Abstract要約: 結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
- 参考スコア(独自算出の注目度): 7.449868392714658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an in-depth analysis of data discovery in data lakes, focusing on table augmentation for given machine learning tasks. We analyze alternative methods used in the three main steps: retrieving joinable tables, merging information, and predicting with the resultant table. As data lakes, the paper uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for benchmarking this data discovery task -- and Open Data US, a well-referenced real data lake. Through systematic exploration on both lakes, our study outlines the importance of accurately retrieving join candidates and the efficiency of simple merging methods. We report new insights on the benefits of existing solutions and on their limitations, aiming at guiding future research in this space.
- Abstract(参考訳): データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。
本研究は,両湖の体系的な調査を通じて,結合候補を正確に検索することの重要性と,単純なマージ手法の効率性について概説する。
我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。
関連論文リスト
- CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。
我々は、Turbo後合成のための新しいデータレシピを公開した。
我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文 参考訳(メタデータ) (2025-02-01T06:03:55Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications [2.663744975320783]
L2正規化ロジスティック回帰は、最先端の自動機械学習(AutoML)フレームワークと同様の性能を発揮する。
データスカースアプリケーションの第1選択として、ロジスティック回帰を考慮することをお勧めします。
論文 参考訳(メタデータ) (2024-05-13T11:43:38Z) - An Automatic Prompt Generation System for Tabular Data Tasks [3.117741687220381]
大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。
本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。
論文 参考訳(メタデータ) (2024-05-09T08:32:55Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。