論文の概要: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges
- arxiv url: http://arxiv.org/abs/2505.18744v1
- Date: Sat, 24 May 2025 15:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.630754
- Title: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges
- Title(参考訳): LogicCat: マルチドメイン推論の課題のためのテキストからSQLへのチェーンベンチマーク
- Authors: Tao Liu, Hongying Zan, Yifan Li, Dixuan Zhang, Lulu Kong, Haixin Liu, Jiaming Hou, Aoze Zheng, Rui Li, Yiming Qiao, Zewei Luo, Qi Wang, Zhiqiang Zhang, Jiaxi Li, Supeng Liu, Kunli Zhang, Min Peng,
- Abstract要約: データセットは4,038の英語質問で構成され、それぞれがユニークなsqlクエリと組み合わせられ、12,114の推論アノテーションが付属し、さまざまなドメインにわたって45のデータベースにまたがる。
LogicCatは最先端モデルの難しさを大幅に増し、最高実行精度は14.96%に達した。
スパイダーとBIRDにおける主要な公開メソッドのベンチマークは、LogicCatがもたらす課題をさらに強調し、堅牢で推論駆動のテキスト・トゥ・ファンクシステムの研究を進めるための重要な機会を強調している。
- 参考スコア(独自算出の注目度): 13.400649304012179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL is a fundamental task in natural language processing that seeks to translate natural language questions into meaningful and executable SQL queries. While existing datasets are extensive and primarily focus on business scenarios and operational logic, they frequently lack coverage of domain-specific knowledge and complex mathematical reasoning. To address this gap, we present a novel dataset tailored for complex reasoning and chain-of-thought analysis in SQL inference, encompassing physical, arithmetic, commonsense, and hypothetical reasoning. The dataset consists of 4,038 English questions, each paired with a unique SQL query and accompanied by 12,114 step-by-step reasoning annotations, spanning 45 databases across diverse domains. Experimental results demonstrate that LogicCat substantially increases the difficulty for state-of-the-art models, with the highest execution accuracy reaching only 14.96%. Incorporating our chain-of-thought annotations boosts performance to 33.96%. Benchmarking leading public methods on Spider and BIRD further underscores the unique challenges presented by LogicCat, highlighting the significant opportunities for advancing research in robust, reasoning-driven text-to-SQL systems. We have released our dataset code at https://github.com/Ffunkytao/LogicCat.
- Abstract(参考訳): Text-to-SQLは自然言語処理の基本的なタスクであり、自然言語の質問を意味があり実行可能なSQLクエリに変換する。
既存のデータセットは広範なものであり、主にビジネスシナリオと運用ロジックに重点を置いているが、ドメイン固有の知識や複雑な数学的推論のカバレッジを欠いていることが多い。
このギャップに対処するために,SQL推論における複雑な推論とチェーン・オブ・シント分析に適した,物理,算術,コモンセンス,仮説推論を含む新しいデータセットを提案する。
データセットは4,038の英語質問で構成され、それぞれがユニークなSQLクエリと組み合わせられ、12,114のステップバイステップ推論アノテーションが付属し、さまざまなドメインにわたって45のデータベースにまたがる。
実験の結果、LogicCatは最先端モデルの難しさを大幅に増加させ、最も高い実行精度は14.96%に達した。
チェーン・オブ・シンクのアノテーションを組み込むことでパフォーマンスは33.96%向上します。
SpiderとBIRDにおける主要な公開メソッドのベンチマークは、LogicCatが提示するユニークな課題をさらに強調し、堅牢で推論駆動のSQLシステムにおける研究を前進させる重要な機会を強調している。
私たちはデータセットコードをhttps://github.com/Ffunkytao/LogicCat.comでリリースしました。
関連論文リスト
- Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup [6.249316460506702]
構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。
PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。
スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
論文 参考訳(メタデータ) (2025-02-20T16:11:27Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。