論文の概要: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Complex Reasoning
- arxiv url: http://arxiv.org/abs/2505.18744v3
- Date: Tue, 09 Sep 2025 12:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.835243
- Title: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Complex Reasoning
- Title(参考訳): LogicCat: 複雑な推論のためのテキストからSQLへのチェーンベンチマーク
- Authors: Tao Liu, Xutao Mao, Hongying Zan, Dixuan Zhang, Yifan Li, Haixin Liu, Lulu Kong, Jiaming Hou, Rui Li, YunLong Li, aoze zheng, Zhiqiang Zhang, Luo Zhewei, Kunli Zhang, Min Peng,
- Abstract要約: LogicCatは、複雑な推論とチェーン・オブ・ソート解析のために特別に設計された最初のText-to-senseベンチマークデータセットである。
LogicCatは現在の最先端モデルのタスク難易度を33.20%に向上させる。
- 参考スコア(独自算出の注目度): 12.249447967086828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL is a critical task in natural language processing that aims to transform natural language questions into accurate and executable SQL queries. In real-world scenarios, these reasoning tasks are often accompanied by complex mathematical computations, domain knowledge, and hypothetical reasoning scenarios. However, existing large-scale Text-to-SQL datasets typically focus on business logic and task logic, neglecting critical factors such as vertical domain knowledge, complex mathematical reasoning, and hypothetical reasoning, which are essential for realistically reflecting the reasoning demands in practical applications and completing data querying and analysis. To bridge this gap, we introduce LogicCat, the first Text-to-SQL benchmark dataset specifically designed for complex reasoning and chain-of-thought parsing, encompassing physics, arithmetic, commonsense, and hypothetical reasoning scenarios. LogicCat comprises 4,038 English questions paired 12,114 detailed chain-of-thought reasoning steps, spanning 45 databases across diverse domains, significantly surpassing existing datasets in complexity. Experimental results demonstrate that LogicCat substantially increases the task difficulty for current state-of-the-art models to at most 33.20% execution accuracy, indicating that this task remains exceptionally challenging. The advancement of LogicCat represents a crucial step toward developing systems suitable for real-world enterprise data analysis and autonomous query generation. We have released our dataset code at https://github.com/Ffunkytao/LogicCat.
- Abstract(参考訳): Text-to-SQLは自然言語処理において重要なタスクであり、自然言語の質問を正確で実行可能なSQLクエリに変換することを目的としている。
現実のシナリオでは、これらの推論タスクには複雑な数学的計算、ドメイン知識、仮説推論シナリオが伴うことが多い。
しかし、既存の大規模テキスト-SQLデータセットは一般的にビジネスロジックとタスクロジックに重点を置いており、垂直ドメイン知識、複雑な数学的推論、仮説推論といった重要な要素を無視している。
このギャップを埋めるために、我々はLogicCatを紹介します。これは複雑な推論と連鎖解析のために特別に設計された最初のText-to-SQLベンチマークデータセットで、物理学、算術、常識、仮説推論のシナリオを含みます。
LogicCatは4,038の英問合せ12,114の詳細な連鎖推論ステップで構成され、45のデータベースをさまざまなドメインに分散し、既存のデータセットの複雑さを大幅に上回っている。
実験の結果、LogicCatは現在の最先端モデルのタスク困難を少なくとも33.20%の精度で増加させ、このタスクは例外的に難しいままであることを示した。
LogicCatの進歩は、現実のエンタープライズデータ分析と自律的なクエリ生成に適したシステムを開発するための重要なステップである。
私たちはデータセットコードをhttps://github.com/Ffunkytao/LogicCat.comでリリースしました。
関連論文リスト
- Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL [20.156191782890797]
本稿では,自然言語質問,データベース,対話履歴を問う問合せを生成するConversational Text-to-Noタスクを提案する。
そこで我々は,クエリ固有の推論機能を備えた小さな言語モデルを実現するフレームワークであるStage-MCTSを提案する。
提案手法は最先端の大規模推論モデルより優れ,実行値の一致精度を最大7.93%向上させる。
論文 参考訳(メタデータ) (2026-02-13T03:35:38Z) - IESR:Efficient MCTS-Based Modular Reasoning for Text-to-SQL with Large Language Models [10.758655501692793]
軽量な大規模言語モデルのためのフレームワークIESR(Information Enhanced Structured Reasoning)を提案する。
複雑な推論ベンチマーク LogicCat と Archer データセット上で,IESR が最先端のパフォーマンスを達成することを示す。
解析の結果,現在のコーダモデルは,物理知識,数理計算,常識推論において顕著なバイアスと欠陥を呈していることがわかった。
論文 参考訳(メタデータ) (2026-02-05T07:10:45Z) - Benchmarking Text-to-Python against Text-to-SQL: The Impact of Explicit Logic and Ambiguity [5.794032059676749]
本稿では,クロスパラダイム評価のためのベンチマークであるBIRD-Pythonを紹介する。
我々は、Pythonが明示的な手続き論理を必要とすることを示し、ユーザの意図に非常に敏感であることを示します。
本稿では、潜在ドメイン知識を生成プロセスに組み込むことで曖昧さを解消する論理補完フレームワーク(LCF)を提案する。
論文 参考訳(メタデータ) (2026-01-22T07:54:45Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - SteinerSQL: Graph-Guided Mathematical Reasoning for Text-to-SQL Generation [4.487121236852947]
既存の手法は、しばしば分離してこれらの課題に取り組み、断裂した推論プロセスを生成する。
我々は、これらの2つの課題を単一のグラフ中心の最適化問題に統合するフレームワークであるSteinerを紹介します。
シュタイナーは、必要なテーブル(端末)を特定する数学的分解、スタイナーツリー問題による最適推論構成、正当性を保証するためのマルチレベル検証の3段階で機能する。
論文 参考訳(メタデータ) (2025-09-23T22:30:52Z) - STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases [27.66819120859756]
SARQAは,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットである。
本稿では,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットであるSTARQAを紹介する。
論文 参考訳(メタデータ) (2025-09-23T19:26:16Z) - Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup [6.249316460506702]
構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。
PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。
スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
論文 参考訳(メタデータ) (2025-02-20T16:11:27Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。
E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。