論文の概要: Text-to-SQL for Enterprise Data Analytics
- arxiv url: http://arxiv.org/abs/2507.14372v1
- Date: Fri, 18 Jul 2025 21:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.862777
- Title: Text-to-SQL for Enterprise Data Analytics
- Title(参考訳): エンタープライズデータ分析のためのテキストからSQL
- Authors: Albert Chen, Manas Bundele, Gaurav Ahlawat, Patrick Stetz, Zhitao Wang, Qiang Fei, Donghoon Jung, Audrey Chu, Bharadwaj Jayaraman, Ayushi Panth, Yatin Arora, Sourav Jain, Renjith Varma, Alexey Ilin, Iuliia Melnychuk, Chelsea Chueh, Joyan Sil, Xiaofeng Wang,
- Abstract要約: 我々は、LinkedInのプロダクトマネージャ、エンジニア、運用チームが、大規模でダイナミックなデータレイクからデータインサイトをセルフサービスすることを可能にする内部ボットの構築から洞察を提供する。
まず、データベースメタデータ、履歴クエリログ、wiki、コードのインデックス化によって、最新のセマンティクスをキャプチャする知識グラフを構築します。
次に、知識グラフからコンテキストを検索・ランク付けし、クエリを書き、幻覚や構文エラーを自動的に修正するテキスト・ツー・ワン・クラスタリングエージェントを構築します。
- 参考スコア(独自算出の注目度): 6.08835924526836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of large language models has brought rapid progress on Text-to-SQL benchmarks, but it is not yet easy to build a working enterprise solution. In this paper, we present insights from building an internal chatbot that enables LinkedIn's product managers, engineers, and operations teams to self-serve data insights from a large, dynamic data lake. Our approach features three components. First, we construct a knowledge graph that captures up-to-date semantics by indexing database metadata, historical query logs, wikis, and code. We apply clustering to identify relevant tables for each team or product area. Second, we build a Text-to-SQL agent that retrieves and ranks context from the knowledge graph, writes a query, and automatically corrects hallucinations and syntax errors. Third, we build an interactive chatbot that supports various user intents, from data discovery to query writing to debugging, and displays responses in rich UI elements to encourage follow-up chats. Our chatbot has over 300 weekly users. Expert review shows that 53% of its responses are correct or close to correct on an internal benchmark set. Through ablation studies, we identify the most important knowledge graph and modeling components, offering a practical path for developing enterprise Text-to-SQL solutions.
- Abstract(参考訳): 大規模言語モデルの導入は、Text-to-SQLベンチマークの急速な進歩をもたらしたが、実際に動作するエンタープライズソリューションを構築するのは、まだ容易ではない。
本稿では、LinkedInのプロダクトマネージャ、エンジニア、運用チームが、大規模でダイナミックなデータレイクからデータインサイトを自己サービスすることを可能にする内部チャットボットを構築する際の洞察を紹介する。
このアプローチには3つのコンポーネントがあります。
まず,データベースメタデータ,履歴クエリログ,wiki,コードのインデックス化によって,最新のセマンティクスをキャプチャする知識グラフを構築する。
各チームや製品領域の関連テーブルを特定するためにクラスタリングを適用します。
次に、知識グラフからコンテキストを検索してランク付けし、クエリを書き、幻覚や構文エラーを自動的に修正するText-to-SQLエージェントを構築します。
第3に,データ発見からクエリ記述,デバッグに至るまで,さまざまなユーザ意図をサポートする対話型チャットボットを構築し,フォローアップチャットを促進するために,リッチUI要素に応答を表示する。
私たちのチャットボットには毎週300人以上のユーザーがいます。
専門家のレビューによると、内部ベンチマークセットでは、回答の53%が正しいか、あるいは近いようだ。
アブレーション研究を通じて、最も重要な知識グラフとモデリングコンポーネントを特定し、エンタープライズテキストからSQLへのソリューションを開発するための実践的なパスを提供します。
関連論文リスト
- Text2VectorSQL: Bridging Text-to-SQL and Vector Search for Unified Natural Language Queries [19.61835087779078]
Text2 - Text-to-とベクトル検索を統合する新しいフレームワークを紹介する。
Text2はセマンティックフィルタリング、マルチモーダルマッチング、検索アクセラレーションを可能にする。
合成データを用いた専用Text2モデルを開発し,ベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-29T03:17:42Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。