論文の概要: DP-Bench: A Benchmark for Evaluating Data Product Creation Systems
- arxiv url: http://arxiv.org/abs/2512.15798v1
- Date: Tue, 16 Dec 2025 19:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.728227
- Title: DP-Bench: A Benchmark for Evaluating Data Product Creation Systems
- Title(参考訳): DP-Bench: データ製品作成システム評価ベンチマーク
- Authors: Faisal Chowdhury, Sola Shirai, Sarthak Dash, Nandana Mihindukulasooriya, Horst Samulowitz,
- Abstract要約: DP-Benchは自動データ製品作成を評価するベンチマークである。
ELTとText-to-huggingベンチマークの既存の作業を活用することで、このベンチマークがどのように作成されたかを説明します。
本稿では,データ生成を自動生成するためのベースラインとして,いくつかのアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.79084373554523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A data product is created with the intention of solving a specific problem, addressing a specific business usecase or meeting a particular need, going beyond just serving data as a raw asset. Data products enable end users to gain greater insights about their data. Since it was first introduced over a decade ago, there has been considerable work, especially in industry, to create data products manually or semi-automatically. However, there exists hardly any benchmark to evaluate automatic data product creation. In this work, we present a benchmark, first of its kind, for this task. We call it DP-Bench. We describe how this benchmark was created by taking advantage of existing work in ELT (Extract-Load-Transform) and Text-to-SQL benchmarks. We also propose a number of LLM based approaches that can be considered as baselines for generating data products automatically. We make the DP-Bench and supplementary materials available in https://huggingface.co/datasets/ibm-research/dp-bench .
- Abstract(参考訳): データ製品は、特定の問題を解決するために作られ、特定のビジネスユースケースに対処したり、特定のニーズを満たすために作られ、単にデータを原材料として提供するだけではない。
データプロダクトにより、エンドユーザは、データに関するより深い洞察を得ることができる。
10年以上前に初めて導入されて以来、特に業界では、手動または半自動でデータ製品を作成するために、かなりの作業が続けられてきた。
しかし、自動データ製品作成を評価するためのベンチマークはほとんど存在しない。
本研究では,まず,この課題に対するベンチマークを示す。
これをDP-Benchと呼ぶ。
ELT(Extract-Load-Transform)とText-to-SQLベンチマークの既存の作業を活用することで、このベンチマークがどのように作成されたかを説明します。
また,データ生成を自動生成するベースラインとして,LLMベースのアプローチを多数提案する。
DP-Benchと補足材料をhttps://huggingface.co/datasets/ibm-research/dp-benchで公開しています。
関連論文リスト
- From Factoid Questions to Data Product Requests: Benchmarking Data Product Discovery over Tables and Text [14.615452158253774]
DPBenchは、ハイブリッドテーブルテキストコーパス上でのユーザ要求駆動型データ製品ベンチマークである。
本フレームワークは,既存のテーブルテキストQAデータセットを,関連するテーブルやパスを一貫性のあるデータ製品にクラスタリングすることで,体系的に再利用する。
論文 参考訳(メタデータ) (2025-09-30T23:07:36Z) - EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - Generating Diverse Q&A Benchmarks for RAG Evaluation with DataMorgana [15.898927916560892]
DataMorganaは、RAGアプリケーションに適した、高度にカスタマイズ可能で多様な合成Q&Aベンチマークを生成するツールである。
ユーザと質問カテゴリの詳細な設定を可能にし、ベンチマーク内での配布を制御する。
DataMorganaは、次のSIGIR'2025 LiveRAGチャレンジのコンテキストにおいて、最初のベータテスターとして、研究コミュニティの選ばれたチームで利用可能になる予定である。
論文 参考訳(メタデータ) (2025-01-22T10:47:08Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Mind the Data Gap: Bridging LLMs to Enterprise Data Integration [2.7248990920379725]
本研究では,大規模言語モデル(LLM)に基づく手法の性能が,実世界のデータセットでテストした場合に著しく低下することを示す。
我々は、エンタープライズデータ統合の発見を前進させるために、新しいベンチマークデータセットであるGOBY Benchmarkをリリースする。
論文 参考訳(メタデータ) (2024-12-29T03:07:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。