論文の概要: KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes
- arxiv url: http://arxiv.org/abs/2506.06541v1
- Date: Fri, 06 Jun 2025 21:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.322135
- Title: KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes
- Title(参考訳): KramaBench: データレイク上のデータからインサイトへのパイプラインに関するAIシステムのベンチマーク
- Authors: Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Sivaprasad Sudhir, Om Chabra, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska,
- Abstract要約: 104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。
これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。
以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 20.75018548918123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Constructing real-world data-to-insight pipelines often involves data extraction from data lakes, data integration across heterogeneous data sources, and diverse operations from data cleaning to analysis. The design and implementation of data science pipelines require domain knowledge, technical expertise, and even project-specific insights. AI systems have shown remarkable reasoning, coding, and understanding capabilities. However, it remains unclear to what extent these capabilities translate into successful design and execution of such complex pipelines. We introduce KRAMABENCH: a benchmark composed of 104 manually-curated real-world data science pipelines spanning 1700 data files from 24 data sources in 6 different domains. We show that these pipelines test the end-to-end capabilities of AI systems on data processing, requiring data discovery, wrangling and cleaning, efficient processing, statistical reasoning, and orchestrating data processing steps given a high-level task. Our evaluation tests 5 general models and 3 code generation models using our reference framework, DS-GURU, which instructs the AI model to decompose a question into a sequence of subtasks, reason through each step, and synthesize Python code that implements the proposed design. Our results on KRAMABENCH show that, although the models are sufficiently capable of solving well-specified data science code generation tasks, when extensive data processing and domain knowledge are required to construct real-world data science pipelines, existing out-of-box models fall short. Progress on KramaBench represents crucial steps towards developing autonomous data science agents for real-world applications. Our code, reference framework, and data are available at https://github.com/mitdbg/KramaBench.
- Abstract(参考訳): 実際のデータ監視パイプラインの構築には、データレイクからのデータ抽出、異種データソース間のデータ統合、データのクリーニングから分析までのさまざまな操作が含まれることが多い。
データサイエンスパイプラインの設計と実装には、ドメイン知識、技術的な専門知識、さらにはプロジェクト固有の洞察さえ必要です。
AIシステムは、顕著な推論、コーディング、理解能力を示している。
しかし、これらの機能がどのようにしてそのような複雑なパイプラインの設計と実行に成功したかは、まだ不明である。
KRAMABENCHは、6つの異なるドメインの24データソースから1700のデータファイルにまたがる104個の実世界のデータサイエンスパイプラインで構成されるベンチマークである。
これらのパイプラインは、データ処理、データ発見、ラングリングとクリーニング、効率的な処理、統計的推論、高レベルなタスクを与えられたデータ処理ステップのオーケストレーションといった、AIシステムのエンドツーエンド機能をテストする。
評価テストでは,提案するフレームワークであるDS-GURUを用いて5つの一般的なモデルと3つのコード生成モデルをテストし,質問をサブタスクのシーケンスに分解し,各ステップを通じて推論し,提案した設計を実装したPythonコードを合成する。
KRAMABENCH における本研究の結果は,データ処理やドメイン知識が実世界のデータサイエンスパイプライン構築に必要となる場合,既存のアウト・オブ・ボックスモデルでは不足していることを示す。
KramaBenchの進歩は、現実世界のアプリケーションのための自律的なデータサイエンスエージェントを開発するための重要なステップである。
私たちのコード、参照フレームワーク、データはhttps://github.com/mitdbg/KramaBench.comで公開されています。
関連論文リスト
- Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。