論文の概要: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges
- arxiv url: http://arxiv.org/abs/2505.18744v1
- Date: Sat, 24 May 2025 15:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.630754
- Title: LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges
- Title(参考訳): LogicCat: マルチドメイン推論の課題のためのテキストからSQLへのチェーンベンチマーク
- Authors: Tao Liu, Hongying Zan, Yifan Li, Dixuan Zhang, Lulu Kong, Haixin Liu, Jiaming Hou, Aoze Zheng, Rui Li, Yiming Qiao, Zewei Luo, Qi Wang, Zhiqiang Zhang, Jiaxi Li, Supeng Liu, Kunli Zhang, Min Peng,
- Abstract要約: データセットは4,038の英語質問で構成され、それぞれがユニークなsqlクエリと組み合わせられ、12,114の推論アノテーションが付属し、さまざまなドメインにわたって45のデータベースにまたがる。
LogicCatは最先端モデルの難しさを大幅に増し、最高実行精度は14.96%に達した。
スパイダーとBIRDにおける主要な公開メソッドのベンチマークは、LogicCatがもたらす課題をさらに強調し、堅牢で推論駆動のテキスト・トゥ・ファンクシステムの研究を進めるための重要な機会を強調している。
- 参考スコア(独自算出の注目度): 13.400649304012179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL is a fundamental task in natural language processing that seeks to translate natural language questions into meaningful and executable SQL queries. While existing datasets are extensive and primarily focus on business scenarios and operational logic, they frequently lack coverage of domain-specific knowledge and complex mathematical reasoning. To address this gap, we present a novel dataset tailored for complex reasoning and chain-of-thought analysis in SQL inference, encompassing physical, arithmetic, commonsense, and hypothetical reasoning. The dataset consists of 4,038 English questions, each paired with a unique SQL query and accompanied by 12,114 step-by-step reasoning annotations, spanning 45 databases across diverse domains. Experimental results demonstrate that LogicCat substantially increases the difficulty for state-of-the-art models, with the highest execution accuracy reaching only 14.96%. Incorporating our chain-of-thought annotations boosts performance to 33.96%. Benchmarking leading public methods on Spider and BIRD further underscores the unique challenges presented by LogicCat, highlighting the significant opportunities for advancing research in robust, reasoning-driven text-to-SQL systems. We have released our dataset code at https://github.com/Ffunkytao/LogicCat.
- Abstract(参考訳): Text-to-SQLは自然言語処理の基本的なタスクであり、自然言語の質問を意味があり実行可能なSQLクエリに変換する。
既存のデータセットは広範なものであり、主にビジネスシナリオと運用ロジックに重点を置いているが、ドメイン固有の知識や複雑な数学的推論のカバレッジを欠いていることが多い。
このギャップに対処するために,SQL推論における複雑な推論とチェーン・オブ・シント分析に適した,物理,算術,コモンセンス,仮説推論を含む新しいデータセットを提案する。
データセットは4,038の英語質問で構成され、それぞれがユニークなSQLクエリと組み合わせられ、12,114のステップバイステップ推論アノテーションが付属し、さまざまなドメインにわたって45のデータベースにまたがる。
実験の結果、LogicCatは最先端モデルの難しさを大幅に増加させ、最も高い実行精度は14.96%に達した。
チェーン・オブ・シンクのアノテーションを組み込むことでパフォーマンスは33.96%向上します。
SpiderとBIRDにおける主要な公開メソッドのベンチマークは、LogicCatが提示するユニークな課題をさらに強調し、堅牢で推論駆動のSQLシステムにおける研究を前進させる重要な機会を強調している。
私たちはデータセットコードをhttps://github.com/Ffunkytao/LogicCat.comでリリースしました。
関連論文リスト
- Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL [20.156191782890797]
本稿では,自然言語質問,データベース,対話履歴を問う問合せを生成するConversational Text-to-Noタスクを提案する。
そこで我々は,クエリ固有の推論機能を備えた小さな言語モデルを実現するフレームワークであるStage-MCTSを提案する。
提案手法は最先端の大規模推論モデルより優れ,実行値の一致精度を最大7.93%向上させる。
論文 参考訳(メタデータ) (2026-02-13T03:35:38Z) - IESR:Efficient MCTS-Based Modular Reasoning for Text-to-SQL with Large Language Models [10.758655501692793]
軽量な大規模言語モデルのためのフレームワークIESR(Information Enhanced Structured Reasoning)を提案する。
複雑な推論ベンチマーク LogicCat と Archer データセット上で,IESR が最先端のパフォーマンスを達成することを示す。
解析の結果,現在のコーダモデルは,物理知識,数理計算,常識推論において顕著なバイアスと欠陥を呈していることがわかった。
論文 参考訳(メタデータ) (2026-02-05T07:10:45Z) - Benchmarking Text-to-Python against Text-to-SQL: The Impact of Explicit Logic and Ambiguity [5.794032059676749]
本稿では,クロスパラダイム評価のためのベンチマークであるBIRD-Pythonを紹介する。
我々は、Pythonが明示的な手続き論理を必要とすることを示し、ユーザの意図に非常に敏感であることを示します。
本稿では、潜在ドメイン知識を生成プロセスに組み込むことで曖昧さを解消する論理補完フレームワーク(LCF)を提案する。
論文 参考訳(メタデータ) (2026-01-22T07:54:45Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - SteinerSQL: Graph-Guided Mathematical Reasoning for Text-to-SQL Generation [4.487121236852947]
既存の手法は、しばしば分離してこれらの課題に取り組み、断裂した推論プロセスを生成する。
我々は、これらの2つの課題を単一のグラフ中心の最適化問題に統合するフレームワークであるSteinerを紹介します。
シュタイナーは、必要なテーブル(端末)を特定する数学的分解、スタイナーツリー問題による最適推論構成、正当性を保証するためのマルチレベル検証の3段階で機能する。
論文 参考訳(メタデータ) (2025-09-23T22:30:52Z) - STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases [27.66819120859756]
SARQAは,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットである。
本稿では,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットであるSTARQAを紹介する。
論文 参考訳(メタデータ) (2025-09-23T19:26:16Z) - Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup [6.249316460506702]
構造的マッピングギャップと語彙的マッピングギャップの2つの重要なギャップを識別する。
PAS関連は87.9%の実行精度を達成し、BIRDデータセットの64.67%の実行精度を導いた。
スパイダーベンチマークの結果は87.9%の精度でスパイダーベンチマークの最先端を新たに設定し、BIRDデータセットで64.67%の精度で結果を導いた。
論文 参考訳(メタデータ) (2025-02-20T16:11:27Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。
E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。