論文の概要: Business Logic-Driven Text-to-SQL Data Synthesis for Business Intelligence
- arxiv url: http://arxiv.org/abs/2601.14518v1
- Date: Tue, 20 Jan 2026 22:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.171101
- Title: Business Logic-Driven Text-to-SQL Data Synthesis for Business Intelligence
- Title(参考訳): ビジネスインテリジェンスのためのビジネス論理駆動型テキスト-SQLデータ合成
- Authors: Jinhui Liu, Ximeng Zhang, Yanbo Ai, Zhou Yu,
- Abstract要約: プライベートビジネスインテリジェンス設定におけるテキスト対the4%)エージェントの評価は、現実的でドメイン固有のデータが不足しているため、難しい。
本稿では,ビジネスペルソナや業務シナリオ,複雑な質問に根ざしたデータを生成するビジネス論理駆動型データ合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.98518836574732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Text-to-SQL agents in private business intelligence (BI) settings is challenging due to the scarcity of realistic, domain-specific data. While synthetic evaluation data offers a scalable solution, existing generation methods fail to capture business realism--whether questions reflect realistic business logic and workflows. We propose a Business Logic-Driven Data Synthesis framework that generates data grounded in business personas, work scenarios, and workflows. In addition, we improve the data quality by imposing a business reasoning complexity control strategy that diversifies the analytical reasoning steps required to answer the questions. Experiments on a production-scale Salesforce database show that our synthesized data achieves high business realism (98.44%), substantially outperforming OmniSQL (+19.5%) and SQL-Factory (+54.7%), while maintaining strong question-SQL alignment (98.59%). Our synthetic data also reveals that state-of-the-art Text-to-SQL models still have significant performance gaps, achieving only 42.86% execution accuracy on the most complex business queries.
- Abstract(参考訳): プライベートビジネスインテリジェンス(BI)設定におけるテキストからSQLエージェントの評価は、現実的なドメイン固有のデータが不足しているため、難しい。
合成評価データはスケーラブルなソリューションを提供するが、既存の生成方法は、現実的なビジネスロジックやワークフローを反映するかどうかという、ビジネスリアリズムを捉えるのに失敗する。
本稿では、ビジネスペルソナ、業務シナリオ、ワークフローに根ざしたデータを生成するBusiness Logic-Driven Data Synthesisフレームワークを提案する。
さらに、ビジネス推論の複雑性制御戦略を取り入れ、分析推論のステップを多様化させることにより、データ品質の向上を図る。
実運用規模のSalesforceデータベースの実験によると、当社の合成データは高いビジネスリアリズム(98.44%)を実現し、OmniSQL(+19.5%)とSQL-Factory(+54.7%)を大幅に上回り、強い質問-SQLアライメント(98.59%)を維持している。
我々の合成データによると、最先端のText-to-SQLモデルは依然として大きなパフォーマンスギャップがあり、最も複雑なビジネスクエリで42.86%しか実行できない。
関連論文リスト
- DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle [41.576417987200074]
実世界のエンタープライズデータインテリジェンスには、ソースを分析可能なテーブルに変換するデータエンジニアリングや、これらのテーブルを意思決定指向の洞察に変換するデータ分析が含まれる。
複雑な機能を反映した210タスクのベンチマークであるDACompを紹介します。
論文 参考訳(メタデータ) (2025-12-03T23:21:28Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [56.961539386979354]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。
提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。
現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文 参考訳(メタデータ) (2025-06-02T05:11:21Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Complex Reasoning [12.249447967086828]
LogicCatは、複雑な推論とチェーン・オブ・ソート解析のために特別に設計された最初のText-to-senseベンチマークデータセットである。
LogicCatは現在の最先端モデルのタスク難易度を33.20%に向上させる。
論文 参考訳(メタデータ) (2025-05-24T15:23:43Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial
Analysis [28.514754357658482]
財務分析のための実用的なText-to-ベンチマークデータセットはありません。
財務分析のためのモデルに依存しない大規模言語モデル(LLM)を提案する。
論文 参考訳(メタデータ) (2024-01-19T05:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。