論文の概要: SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation
- arxiv url: http://arxiv.org/abs/2506.07423v1
- Date: Mon, 09 Jun 2025 04:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.806237
- Title: SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation
- Title(参考訳): SEED: 自動エビデンス生成によるテキストからSQLへのパフォーマンス向上と実用的なユーザビリティ
- Authors: Janghyeon Yun, Sang-goo Lee,
- Abstract要約: State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
- 参考スコア(独自算出の注目度): 8.638974393417929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL enables non-experts to retrieve data from databases by converting natural language queries into SQL. However, state-of-the-art text-to-SQL studies rely on the BIRD dataset, which assumes that evidence is provided along with questions. Although BIRD facilitates research advancements, it assumes that users have expertise and domain knowledge, contradicting the fundamental goal of text-to-SQL. In addition, human-generated evidence in BIRD contains defects, including missing or erroneous evidence, which affects model performance. To address this issue, we propose SEED (System for Evidence Extraction and Domain knowledge generation), an approach that automatically generates evidence to improve performance and practical usability in real-world scenarios. SEED systematically analyzes database schema, description files, and values to extract relevant information. We evaluated SEED on BIRD and Spider, demonstrating that it significantly improves SQL generation accuracy in the no-evidence scenario, and in some cases, even outperforms the setting where BIRD evidence is provided. Our results highlight that SEED-generated evidence not only bridges the gap between research and real-world deployment but also improves the adaptability and robustness of text-to-SQL models. Our code is available at https://github.com/felix01189/SEED
- Abstract(参考訳): Text-to-SQLは、自然言語クエリをSQLに変換することによって、非専門家がデータベースからデータを取得することを可能にする。
しかし、最先端のテキストからSQLへの研究はBIRDデータセットに依存しており、根拠は疑問と共に提供されると仮定している。
BIRDは研究の進歩を促進するが、ユーザーは専門知識とドメイン知識を持っていると仮定し、テキストからSQLへの基本的な目標と矛盾する。
加えて、BIRDにおける人為的な証拠には、モデル性能に影響を与える欠陥や誤った証拠を含む欠陥が含まれている。
この問題に対処するために,実世界のシナリオにおける性能向上と実用的なユーザビリティ向上のためのエビデンスを自動的に生成するSEED(System for Evidence extract and Domain Knowledge Generation)を提案する。
SEEDは、データベーススキーマ、記述ファイル、および値を体系的に分析し、関連する情報を抽出する。
BIRDおよびSpider上でSEEDを評価し,無証拠シナリオにおけるSQL生成精度が著しく向上することを示した。
この結果から,SEEDが生成した証拠は,研究と実世界の展開のギャップを埋めるだけでなく,テキスト・トゥ・SQLモデルの適応性と堅牢性も向上することが明らかとなった。
私たちのコードはhttps://github.com/felix01189/SEEDで利用可能です。
関連論文リスト
- RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - Balancing Content Size in RAG-Text2SQL System [0.0]
本研究では,検索した文書の文書サイズと品質の相違点について検討する。
テキスト2モデルにおける幻覚現象を考察し, 誤りを最小限に抑える上で, キュレートされた文書提示の重要性を強調した。
我々の発見は、RAG + Text2システムの堅牢性を高めるロードマップを提供し、現実世界のアプリケーションに実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-01-28T06:06:28Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。