論文の概要: Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models
- arxiv url: http://arxiv.org/abs/2412.07214v3
- Date: Fri, 14 Feb 2025 02:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:49.855484
- Title: Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models
- Title(参考訳): 大規模言語モデルによるクロスドメイン探索データ分析の自動化に向けて
- Authors: Jun-Peng Zhu, Boyan Niu, Peng Cai, Zheming Ni, Jianwei Wan, Kai Xu, Jiajun Huang, Shengbo Ma, Bing Wang, Xuan Zhou, Guanglei Bao, Donghui Zhang, Liu Tang, Qi Liu,
- Abstract要約: 本稿では,自動クロスドメイン探索データ分析システムであるTiInsightについて述べる。
TiInsightは、GPT-4を用いてスパイダーデータセット上で86.3%の階層的実行精度を達成した。
また、Birdデータセット上での最先端のパフォーマンスも示す。
- 参考スコア(独自算出の注目度): 14.236566119377352
- License:
- Abstract: Exploratory data analysis (EDA), coupled with SQL, is essential for data analysts involved in data exploration and analysis. However, data analysts often encounter two primary challenges: (1) the need to craft SQL queries skillfully, and (2) the requirement to generate suitable visualization types that enhance the interpretation of query results. Due to its significance, substantial research efforts have been made to explore different approaches to address these challenges, including leveraging large language models (LLMs). However, existing methods fail to meet real-world data exploration requirements primarily due to (1) complex database schema; (2) unclear user intent; (3) limited cross-domain generalization capability; and (4) insufficient end-to-end text-to-visualization capability. This paper presents TiInsight, an automated SQL-based cross-domain exploratory data analysis system. First, we propose hierarchical data context (i.e., HDC), which leverages LLMs to summarize the contexts related to the database schema, which is crucial for open-world EDA systems to generalize across data domains. Second, the EDA system is divided into four components (i.e., stages): HDC generation, question clarification and decomposition, text-to-SQL generation (i.e., TiSQL), and data visualization (i.e., TiChart). Finally, we implemented an end-to-end EDA system with a user-friendly GUI interface in the production environment at PingCAP. We have also open-sourced all APIs of TiInsight to facilitate research within the EDA community. Through extensive evaluations by a real-world user study, we demonstrate that TiInsight offers remarkable performance compared to human experts. Specifically, TiSQL achieves an execution accuracy of 86.3% on the Spider dataset using GPT-4. It also demonstrates state-of-the-art performance on the Bird dataset.
- Abstract(参考訳): SQLと組み合わせた探索的データ分析(EDA)は、データ探索と分析に関わるデータアナリストにとって不可欠である。
しかし、データアナリストは、(1)SQLクエリを巧みに作成する必要があること、(2)クエリ結果の解釈を強化する適切な視覚化タイプを生成する必要があること、の2つの主要な課題に直面することが多い。
その重要性から、大規模言語モデル(LLM)の活用など、これらの課題に対処するための様々なアプローチを検討するために、かなりの研究努力がなされている。
しかし,既存の手法は,(1)複雑なデータベーススキーマ,(2)不明瞭なユーザ意図,(3)ドメイン間の一般化能力の制限,(4)エンド・ツー・エンドのテキスト・ツー・ビジュアライゼーション能力の不足など,実世界のデータ探索の要件を満たすことができない。
本稿では,SQLベースのクロスドメイン探索データ分析システムであるTiInsightについて述べる。
まず、LLMを利用してデータベーススキーマに関連するコンテキストを要約する階層型データコンテキスト(HDC)を提案する。
次に、EDAシステムは、HDC生成、質問の明確化と分解、テキストからSQL生成(TiSQL)、データ可視化(TiChart)の4つのコンポーネント(ステージ)に分けられる。
最後に,PingCAPの運用環境において,ユーザフレンドリなGUIインタフェースを備えたエンド・ツー・エンドのEDAシステムを実装した。
また、EDAコミュニティ内での研究を促進するため、TiInsightのすべてのAPIをオープンソース化しました。
実世界のユーザスタディによる広範な評価を通じて、TiInsightは人間の専門家に比べて優れたパフォーマンスを提供していることを実証する。
具体的には、TiSQLはGPT-4を使用してSpiderデータセット上で86.3%の実行精度を達成する。
また、Birdデータセット上での最先端のパフォーマンスも示す。
関連論文リスト
- Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - A multi-task semi-supervised framework for Text2Graph & Graph2Text [2.2344764434954256]
グラフからテキストとテキストの生成からグラフ抽出を共同で学習する。
我々の手法は、テキスト・トゥ・グラフ・トゥ・テキストにおける教師なしの最先端結果を上回る。
結果のモデルは、非並列データを持つ任意の新しいドメインで容易にトレーニングできる。
論文 参考訳(メタデータ) (2022-02-12T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。