論文の概要: Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration
- arxiv url: http://arxiv.org/abs/2510.26495v1
- Date: Thu, 30 Oct 2025 13:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.8411
- Title: Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration
- Title(参考訳): テキストからSQLへの再考: リアルタイムデータベース探索のための動的マルチターンSQLインタラクション
- Authors: Linzhuang Sun, Tianyu Guo, Hao Liang, Yuying Li, Qifeng Cai, Jingxuan Wei, Bihui Yu, Wentao Zhang, Bin Cui,
- Abstract要約: 進化するユーザインタラクションの下でモデル性能を評価するベンチマークであるDy-Benchを紹介する。
以前の手動でキュレートされたデータセットとは異なり、Dylz-Benchはタスクと検証の2段階の自動パイプラインを通じて構築される。
Dy-BenchはBIRDとSpider 2データベースにまたがる13のドメインをカバーしており、合計1,072のタスクがある。
- 参考スコア(独自算出の注目度): 21.94739453628141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-SQL have achieved strong results in static, single-turn tasks, where models generate SQL queries from natural language questions. However, these systems fall short in real-world interactive scenarios, where user intents evolve and queries must be refined over multiple turns. In applications such as finance and business analytics, users iteratively adjust query constraints or dimensions based on intermediate results. To evaluate such dynamic capabilities, we introduce DySQL-Bench, a benchmark assessing model performance under evolving user interactions. Unlike previous manually curated datasets, DySQL-Bench is built through an automated two-stage pipeline of task synthesis and verification. Structured tree representations derived from raw database tables guide LLM-based task generation, followed by interaction-oriented filtering and expert validation. Human evaluation confirms 100% correctness of the synthesized data. We further propose a multi-turn evaluation framework simulating realistic interactions among an LLM-simulated user, the model under test, and an executable database. The model must adapt its reasoning and SQL generation as user intents change. DySQL-Bench covers 13 domains across BIRD and Spider 2 databases, totaling 1,072 tasks. Even GPT-4o attains only 58.34% overall accuracy and 23.81% on the Pass@5 metric, underscoring the benchmark's difficulty. All code and data are released at https://github.com/Aurora-slz/Real-World-SQL-Bench .
- Abstract(参考訳): Text-to-SQLの最近の進歩は、モデルが自然言語の質問からSQLクエリを生成する静的なシングルターンタスクにおいて、大きな成果を上げている。
しかし、これらのシステムは、ユーザの意図が進化し、クエリが複数回にわたって洗練されなければならない現実世界の対話シナリオでは不足している。
金融やビジネス分析などのアプリケーションでは、ユーザは中間結果に基づいてクエリ制約や次元を反復的に調整する。
このような動的機能を評価するために、進化するユーザインタラクションの下でモデル性能を評価するベンチマークであるDySQL-Benchを紹介する。
以前の手動でキュレートされたデータセットとは異なり、DySQL-Benchはタスク合成と検証の自動化された2段階パイプラインを通じて構築されている。
生のデータベーステーブルから得られる構造木表現は、LLMベースのタスク生成をガイドし、その後にインタラクション指向のフィルタリングと専門家による検証を行う。
人間の評価は、合成データの100%の正確性を確認する。
また、LLMシミュレーションユーザ間の現実的なインタラクションをシミュレートするマルチターン評価フレームワーク、テスト中のモデル、実行可能データベースを提案する。
ユーザ意図が変わるにつれて、モデルは推論とSQL生成に適応する必要があります。
DySQL-BenchはBIRDとSpider 2データベースにまたがる13のドメインをカバーする。
GPT-4oでさえ、全体的な精度は58.34%、Pass@5の23.81%に過ぎず、ベンチマークの難しさを暗示している。
すべてのコードとデータはhttps://github.com/Aurora-slz/Real-World-SQL-Benchで公開されている。
関連論文リスト
- RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。