Fugu-MT 論文翻訳(概要): ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback

論文の概要: ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback

arxiv url: http://arxiv.org/abs/2503.19988v1
Date: Tue, 25 Mar 2025 18:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:46.957085
Title: ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback
Title（参考訳）: ExCoT: 実行フィードバックによるテキストからSQLへの推論の最適化
Authors: Bohan Zhai, Canwen Xu, Yuxiong He, Zhewei Yao,
Abstract要約: 大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
参考スコア（独自算出の注目度）: 49.21833666405111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-SQL demands precise reasoning to convert natural language questions into structured queries. While large language models (LLMs) excel in many reasoning tasks, their ability to leverage Chain-of-Thought (CoT) reasoning for text-to-SQL remains underexplored. We identify critical limitations: zero-shot CoT offers minimal gains, and Direct Preference Optimization (DPO) applied without CoT yields marginal improvements. We propose ExCoT, a novel framework that iteratively optimizes open-source LLMs by combining CoT reasoning with off-policy and on-policy DPO, relying solely on execution accuracy as feedback. This approach eliminates the need for reward models or human-annotated preferences. Our experimental results demonstrate significant performance gains: ExCoT improves execution accuracy on BIRD dev set from 57.37% to 68.51% and on Spider test set from 78.81% to 86.59% for LLaMA-3 70B, with Qwen-2.5-Coder demonstrating similar improvements. Our best model achieves state-of-the-art performance in the single-model setting on both BIRD and Spider datasets, notably achieving 68.53% on the BIRD test set.
Abstract（参考訳）: Text-to-SQLは、自然言語の質問を構造化クエリに変換する正確な推論を要求する。大きな言語モデル(LLM)は多くの推論タスクに優れていますが、CoT(Chain-of-Thought)推論をテキストからSQLに活用する能力はいまだに未定です。ゼロショットCoTは最小ゲインを提供し、直接選好最適化(DPO)はCoTなしで適用すると限界改善をもたらす。我々は,オープンソースのLLMを反復的に最適化する新しいフレームワークであるExCoTを提案する。このアプローチは、報酬モデルや人間に注釈を付けた好みの必要性を排除します。 ExCoTはBIRD開発セットを57.37%から68.51%に、スパイダーテストセットを78.81%から86.59%に改善し、Qwen-2.5-Coderも同様の改善を示した。我々の最良のモデルは、BIRDデータセットとSpiderデータセットの両方の単一モデル設定で最先端のパフォーマンスを実現し、特にBIRDテストセットで68.53%を達成した。

関連論文リスト

RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
ReEx-SQL: Reasoning with Execution-Aware Reinforcement Learning for Text-to-SQL [21.29343406227956]
実行フィードバックは、大規模言語モデルを正確に推論し、信頼性の高いクエリを生成するために不可欠である。既存の方法は、修正や選択のためのポストホック信号としてのみ実行フィードバックを処理し、生成プロセスに統合することができない。本稿では,ReEx-Reasoningを提案する。ReEx-Reasoningは,デコード中にモデルがデータベースと対話し,実行フィードバックに基づいて推論を動的に調整できるフレームワークである。
論文参考訳（メタデータ） (2025-05-19T06:46:47Z)
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL [13.215512957681185]
既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。 OpenAI o1のような最近の推論強化モデルの成功に触発されて、テキスト・ツー・サーベイ・タスクに特化して設計された、新たな部分報酬セットを提案する。提案した報酬を用いたRL-onlyトレーニングは,教師付き微調整よりも高い精度と優れた一般化を継続的に達成できることを実証する。
論文参考訳（メタデータ） (2025-03-29T17:29:30Z)
OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文参考訳（メタデータ） (2025-02-19T07:51:50Z)
Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL [23.741969743203413]
直接選好最適化(DPO)は、算術語問題やコード生成といった複雑な推論タスクに有効であることが証明されている。しかし、Text-to-nativeデータセットに適用すると、DPOはパフォーマンス向上に失敗し、さらに劣化する可能性がある。 CoT(Synthetic Chain-of-Thought)ソリューションでText-to-nativeデータセットを拡張することで、初めて、一貫性と大幅なパフォーマンス向上を実現しました。
論文参考訳（メタデータ） (2025-02-17T10:47:17Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文参考訳（メタデータ） (2024-09-24T01:40:50Z)
ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models [8.618945530676614]
Execution Accuracy (EXE) と Exact Set Matching Accuracy (ESM) は、パフォーマンスを誤って表現できる固有の制限に悩まされている。我々は,構文的要素と意味的要素の両方を用いてクエリを比較することで,これらの問題を緩和する新しい指標ETM(Enhanced Tree Matching)を導入する。 ETM と ESM は23.0% と 28.9% の偽陽性と負の比率を産出でき、EMM はそれぞれ 0.3% と 2.7% に減少する。
論文参考訳（メタデータ） (2024-07-10T02:20:19Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文参考訳（メタデータ） (2023-04-21T15:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。