論文の概要: From Factoid Questions to Data Product Requests: Benchmarking Data Product Discovery over Tables and Text
- arxiv url: http://arxiv.org/abs/2510.21737v1
- Date: Tue, 30 Sep 2025 23:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.942075
- Title: From Factoid Questions to Data Product Requests: Benchmarking Data Product Discovery over Tables and Text
- Title(参考訳): ファクトイドからデータプロダクト要求へ: テーブルとテキストによるデータプロダクト発見のベンチマーク
- Authors: Liangliang Zhang, Nandana Mihindukulasooriya, Niharika S. D'Souza, Sola Shirai, Sarthak Dash, Yao Ma, Horst Samulowitz,
- Abstract要約: DPBenchは、ハイブリッドテーブルテキストコーパス上でのユーザ要求駆動型データ製品ベンチマークである。
本フレームワークは,既存のテーブルテキストQAデータセットを,関連するテーブルやパスを一貫性のあるデータ製品にクラスタリングすることで,体系的に再利用する。
- 参考スコア(独自算出の注目度): 14.615452158253774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data products are reusable, self-contained assets designed for specific business use cases. Automating their discovery and generation is of great industry interest, as it enables discovery in large data lakes and supports analytical Data Product Requests (DPRs). Currently, there is no benchmark established specifically for data product discovery. Existing datasets focus on answering single factoid questions over individual tables rather than collecting multiple data assets for broader, coherent products. To address this gap, we introduce DPBench, the first user-request-driven data product benchmark over hybrid table-text corpora. Our framework systematically repurposes existing table-text QA datasets by clustering related tables and passages into coherent data products, generating professional-level analytical requests that span both data sources, and validating benchmark quality through multi-LLM evaluation. DPBench preserves full provenance while producing actionable, analyst-like data product requests. Baseline experiments with hybrid retrieval methods establish the feasibility of DPR evaluation, reveal current limitations, and point to new opportunities for automatic data product discovery research. Code and datasets are available at: https://anonymous.4open.science/r/data-product-benchmark-BBA7/
- Abstract(参考訳): データ製品は再利用可能で、特定のビジネスユースケースのために設計された自己完結型の資産です。
大規模なデータレイクでの発見を可能にし、分析データ製品要求(DPR)をサポートするため、その発見と生成を自動化することは、業界における大きな関心事である。
現在、データ製品発見専用に確立されたベンチマークは存在しない。
既存のデータセットは、より広範囲で一貫性のある製品のために複数のデータ資産を集めるのではなく、個々のテーブルに対して単一のファクトイド質問に答えることに重点を置いている。
このギャップに対処するため、我々はDPBenchを紹介した。DPBenchは、ハイブリッドテーブルテキストコーパス上でのユーザ要求駆動型データ製品ベンチマークである。
本フレームワークは,関係するテーブルやパスを一貫性のあるデータ製品にクラスタリングし,両方のデータソースにまたがるプロレベルの分析要求を生成し,マルチLLM評価によってベンチマーク品質を検証することによって,既存のテーブルテキストQAデータセットを体系的に再利用する。
DPBenchは、アクション可能なアナリストのようなデータ製品要求を生成しながら、完全な実績を保っている。
ハイブリッド検索手法によるベースライン実験は、DPR評価の実現可能性を確立し、現在の限界を明らかにし、自動データ製品発見研究の新たな機会を示す。
コードとデータセットは以下の通りである。 https://anonymous.4open.science/r/data-product-benchmark-BBA7/
関連論文リスト
- DP-Bench: A Benchmark for Evaluating Data Product Creation Systems [6.79084373554523]
DP-Benchは自動データ製品作成を評価するベンチマークである。
ELTとText-to-huggingベンチマークの既存の作業を活用することで、このベンチマークがどのように作成されたかを説明します。
本稿では,データ生成を自動生成するためのベースラインとして,いくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-16T19:19:01Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent [36.65355075707938]
AI研究における重要な応用の1つは、エージェントとベースライン検索による実験設計を自動化することである。
ベースラインおよびデータセットレコメンデーションのための包括的フレームワークを提案する。
我々は、正確な相互作用連鎖を構築して明確な推論連鎖を構築し、解釈可能な正当化を生成するために大きな言語モデルを微調整する推論強化リランカを開発する。
論文 参考訳(メタデータ) (2025-11-07T01:51:56Z) - Generating Diverse Q&A Benchmarks for RAG Evaluation with DataMorgana [15.898927916560892]
DataMorganaは、RAGアプリケーションに適した、高度にカスタマイズ可能で多様な合成Q&Aベンチマークを生成するツールである。
ユーザと質問カテゴリの詳細な設定を可能にし、ベンチマーク内での配布を制御する。
DataMorganaは、次のSIGIR'2025 LiveRAGチャレンジのコンテキストにおいて、最初のベータテスターとして、研究コミュニティの選ばれたチームで利用可能になる予定である。
論文 参考訳(メタデータ) (2025-01-22T10:47:08Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。