Fugu-MT 論文翻訳(概要): LakeBench: Benchmarks for Data Discovery over Data Lakes

論文の概要: LakeBench: Benchmarks for Data Discovery over Data Lakes

arxiv url: http://arxiv.org/abs/2307.04217v1
Date: Sun, 9 Jul 2023 16:16:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 14:49:46.601677
Title: LakeBench: Benchmarks for Data Discovery over Data Lakes
Title（参考訳）: lakebench: データレイク上のデータディスカバリのベンチマーク
Authors: Kavitha Srinivas, Julian Dolby, Ibrahim Abdelaziz, Oktie Hassanzadeh, Harsha Kokel, Aamod Khatiwada, Tejaswini Pedapati, Subhajit Chaudhury, Horst Samulowitz
Abstract要約: データレポジトリで関連するテーブルを見つけるためのベンチマークを開発する。 CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから引き出された表を使用します。既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。
参考スコア（独自算出の注目度）: 21.32260396393041
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within enterprises, there is a growing need to intelligently navigate data lakes, specifically focusing on data discovery. Of particular importance to enterprises is the ability to find related tables in data repositories. These tables can be unionable, joinable, or subsets of each other. There is a dearth of benchmarks for these tasks in the public domain, with related work targeting private datasets. In LakeBench, we develop multiple benchmarks for these tasks by using the tables that are drawn from a diverse set of data sources such as government data from CKAN, Socrata, and the European Central Bank. We compare the performance of 4 publicly available tabular foundational models on these tasks. None of the existing models had been trained on the data discovery tasks that we developed for this benchmark; not surprisingly, their performance shows significant room for improvement. The results suggest that the establishment of such benchmarks may be useful to the community to build tabular models usable for data discovery in data lakes.
Abstract（参考訳）: 企業では、データ発見を中心に、データレイクをインテリジェントにナビゲートする必要性が高まっています。企業にとって特に重要なのは、関連するテーブルをデータレポジトリで見つける能力だ。これらのテーブルは互いに結合可能、結合可能、あるいはサブセットでもよい。パブリックドメインにはこれらのタスクのベンチマークが多数あり、関連する作業はプライベートデータセットをターゲットにしている。 LakeBenchでは、CKAN、ソクラタ、欧州中央銀行の政府データなど、さまざまなデータソースから抽出された表を用いて、これらのタスクの複数のベンチマークを作成する。これらのタスクにおける4つの表型基礎モデルの性能を比較した。既存のモデルはいずれも、このベンチマークのために開発したデータ発見タスクについてトレーニングされていません。その結果,このようなベンチマークの確立は,データレイクにおけるデータ発見に有用な表型モデルを構築する上で,コミュニティにとって有用であることが示唆された。

関連論文リスト

LakeMLB: Data Lake Machine Learning Benchmark [15.634664259138157]
データレイクにおける最も一般的なマルチソース・マルチテーブルシナリオ向けに設計されたLakeMLB(Data Lake Machine Learning Benchmark)を提案する。 LakeMLBは、UnionとJoinという2つの代表的なマルチテーブルシナリオに焦点を当てており、政府のオープンデータ、ファイナンス、Wikipedia、オンラインマーケットプレイスを含む、各シナリオの3つの実世界のデータセットを提供している。
論文参考訳（メタデータ） (2026-02-11T02:33:29Z)
From Factoid Questions to Data Product Requests: Benchmarking Data Product Discovery over Tables and Text [14.615452158253774]
DPBenchは、ハイブリッドテーブルテキストコーパス上でのユーザ要求駆動型データ製品ベンチマークである。本フレームワークは,既存のテーブルテキストQAデータセットを,関連するテーブルやパスを一貫性のあるデータ製品にクラスタリングすることで,体系的に再利用する。
論文参考訳（メタデータ） (2025-09-30T23:07:36Z)
LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文参考訳（メタデータ） (2025-09-30T22:34:23Z)
MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.47478110973042]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文参考訳（メタデータ） (2025-06-05T21:05:03Z)
Something's Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks [0.9374652839580181]
近年の表表現学習とデータ発見手法は,データレイク内の表結合探索(TUS)に取り組みつつある。これらの手法は、実世界のTUSタスクにおける意味的理解を評価するためのベンチマークを用いて、一般的に評価される。本稿では,セマンティックテーブル統合検索における進捗のより現実的で信頼性の高い評価を可能にするために,将来のベンチマークに不可欠な基準を提案する。
論文参考訳（メタデータ） (2025-05-27T15:23:52Z)
Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System [8.096082871461311]
Pneumaは、表形式のデータを効率的かつ効果的に発見するために設計された検索拡張世代(RAG)システムである。テーブル表現のために、Pneumaはスキーマと行レベルの情報を保存し、包括的なデータ理解を保証する。テーブル検索では、PneumaはLLMをフルテキストやベクトル検索といった従来の情報検索技術で強化する。
論文参考訳（メタデータ） (2025-04-12T13:20:50Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文参考訳（メタデータ） (2024-06-28T17:28:53Z)
4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文参考訳（メタデータ） (2024-04-28T15:04:54Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。 TableLLMはデータ操作タスクを巧みに扱うために構築されている。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳（メタデータ） (2024-03-28T11:21:12Z)
Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [7.449868392714658]
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
論文参考訳（メタデータ） (2024-02-09T09:48:38Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Characterizing Transactional Databases for Frequent Itemset Mining [0.0]
本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
論文参考訳（メタデータ） (2020-11-09T12:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。