論文の概要: LakeMLB: Data Lake Machine Learning Benchmark
- arxiv url: http://arxiv.org/abs/2602.10441v1
- Date: Wed, 11 Feb 2026 02:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.397364
- Title: LakeMLB: Data Lake Machine Learning Benchmark
- Title(参考訳): LakeMLB: データレイク機械学習ベンチマーク
- Authors: Feiyu Pan, Tianbin Zhang, Aoqian Zhang, Yu Sun, Zheng Wang, Lixing Chen, Li Pan, Jianhua Li,
- Abstract要約: データレイクにおける最も一般的なマルチソース・マルチテーブルシナリオ向けに設計されたLakeMLB(Data Lake Machine Learning Benchmark)を提案する。
LakeMLBは、UnionとJoinという2つの代表的なマルチテーブルシナリオに焦点を当てており、政府のオープンデータ、ファイナンス、Wikipedia、オンラインマーケットプレイスを含む、各シナリオの3つの実世界のデータセットを提供している。
- 参考スコア(独自算出の注目度): 15.634664259138157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern data lakes have emerged as foundational platforms for large-scale machine learning, enabling flexible storage of heterogeneous data and structured analytics through table-oriented abstractions. Despite their growing importance, standardized benchmarks for evaluating machine learning performance in data lake environments remain scarce. To address this gap, we present LakeMLB (Data Lake Machine Learning Benchmark), designed for the most common multi-source, multi-table scenarios in data lakes. LakeMLB focuses on two representative multi-table scenarios, Union and Join, and provides three real-world datasets for each scenario, covering government open data, finance, Wikipedia, and online marketplaces. The benchmark supports three representative integration strategies: pre-training-based, data augmentation-based, and feature augmentation-based approaches. We conduct extensive experiments with state-of-the-art tabular learning methods, offering insights into their performance under complex data lake scenarios. We release both datasets and code to facilitate rigorous research on machine learning in data lake ecosystems; the benchmark is available at https://github.com/zhengwang100/LakeMLB.
- Abstract(参考訳): 現代的なデータレイクは、テーブル指向の抽象化を通じて、異種データのフレキシブルなストレージと構造化された分析を可能にする、大規模な機械学習の基盤プラットフォームとして登場した。
その重要性は増しているが、データレイク環境における機械学習のパフォーマンスを評価するための標準化されたベンチマークは依然として少ない。
このギャップに対処するため、データレイクにおける最も一般的なマルチソース、マルチテーブルシナリオのために設計されたLakeMLB(Data Lake Machine Learning Benchmark)を提示する。
LakeMLBは、UnionとJoinという2つの代表的なマルチテーブルシナリオに焦点を当てており、政府のオープンデータ、ファイナンス、Wikipedia、オンラインマーケットプレイスを含む、各シナリオの3つの実世界のデータセットを提供している。
このベンチマークは、事前トレーニングベース、データ拡張ベース、機能拡張ベースアプローチの3つの代表的な統合戦略をサポートしている。
我々は、最先端の表形式学習手法による広範な実験を行い、複雑なデータレイクシナリオ下での性能に関する洞察を提供する。
データレイクエコシステムにおける機械学習の厳格な研究を促進するために、データセットとコードの両方をリリースしています。
関連論文リスト
- LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [7.449868392714658]
本稿では,機械学習タスクの自動テーブル拡張について,詳細な分析を行う。
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
私たちは2つのデータレイクを使用します。Open Data US、よく参照された実データレイク、新しい半合成データセットYADL(Yet Another Data Lake)です。
論文 参考訳(メタデータ) (2024-02-09T09:48:38Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。