論文の概要: Exploring Database Normalization Effects on SQL Generation
- arxiv url: http://arxiv.org/abs/2510.01989v1
- Date: Thu, 02 Oct 2025 13:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.137783
- Title: Exploring Database Normalization Effects on SQL Generation
- Title(参考訳): SQL生成におけるデータベースの正規化効果の探索
- Authors: Ryosuke Kohita,
- Abstract要約: 正規化は、自然言語 tosql (NL2) システムにおいて批判的であるが、しばしば見過ごされる要素である。
正規化レベルの異なる合成および実世界のデータセット上で,8つの主要な大言語モデルを評価する。
この結果から,NL2アプリケーションの最適スキーマ設計は,サポートするクエリの種類に依存することが示唆された。
- 参考スコア(独自算出の注目度): 0.9256004093538199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schema design, particularly normalization, is a critical yet often overlooked factor in natural language to SQL (NL2SQL) systems. Most prior research evaluates models on fixed schemas, overlooking the influence of design on performance. We present the first systematic study of schema normalization's impact, evaluating eight leading large language models on synthetic and real-world datasets with varied normalization levels. We construct controlled synthetic datasets with formal normalization (1NF-3NF) and real academic paper datasets with practical schemes. Our results show that denormalized schemas offer high accuracy on simple retrieval queries, even with cost-effective models in zero-shot settings. In contrast, normalized schemas (2NF/3NF) introduce challenges such as errors in base table selection and join type prediction; however, these issues are substantially mitigated by providing few-shot examples. For aggregation queries, normalized schemas yielded better performance, mainly due to their robustness against the data duplication and NULL value issues that cause errors in denormalized schemas. These findings suggest that the optimal schema design for NL2SQL applications depends on the types of queries to be supported. Our study demonstrates the importance of considering schema design when developing NL2SQL interfaces and integrating adaptive schema selection for real-world scenarios.
- Abstract(参考訳): スキーマ設計、特に正規化は、自然言語からSQL(NL2SQL)システムへの重要な要素であるが、しばしば見過ごされる要素である。
ほとんどの先行研究は、設計がパフォーマンスに与える影響を見越して、固定スキーマのモデルを評価する。
本研究では,スキーマ正規化の影響に関する最初の体系的な研究を行い,様々な正規化レベルを持つ合成および実世界のデータセット上で,主要な8つの言語モデルを評価する。
我々は,形式正規化による制御された合成データセット (1NF-3NF) と実践的なスキームによる実際の学術論文データセットを構築した。
その結果,非正規化スキーマは,ゼロショット設定のコスト効率の良いモデルであっても,単純な検索クエリに対して高い精度を提供することがわかった。
対照的に、正規化スキーマ (2NF/3NF) では、ベーステーブルの選択におけるエラーや結合型予測などの問題が導入されている。
集約クエリの場合、正規化スキーマは、主にデータ重複に対する堅牢性と、非正規化スキーマのエラーを引き起こすNULL値の問題により、パフォーマンスが向上した。
これらの結果は,NL2SQLアプリケーションの最適スキーマ設計がサポートするクエリの種類に依存することを示唆している。
本研究は,NL2SQLインタフェースの開発においてスキーマ設計を考えることの重要性を実証し,実世界のシナリオに適応的なスキーマ選択を統合することの重要性を示す。
関連論文リスト
- Same Content, Different Representations: A Controlled Study for Table QA [15.896655757672441]
リアルタイム設定におけるテーブル質問回答(Table QA)は、構造化されたデータベースとテキストフィールドを含む半構造化されたテーブルの両方で操作する必要がある。
既存のベンチマークは固定データ形式に結びついており、表現自体がモデルパフォーマンスに与える影響を体系的に検討していない。
コンテント定数を一定に保ちながら構造を変化させることによりテーブル表現の役割を分離する最初の制御された研究について述べる。
論文 参考訳(メタデータ) (2025-09-26T22:33:19Z) - The Interpretability Analysis of the Model Can Bring Improvements to the Text-to-SQL Task [3.890033714780255]
WHERE節のセマンティック解析のためのモデル解釈可能性解析と実行誘導戦略を統合する。
我々のモデルは、単一テーブルデータベースクエリタスクのエンブレマであるウィキデータセットを抜粋する。
基本的なデータベースクエリ処理の精度を高めるためにこの取り組みが、複雑なクエリ処理の研究に新たな視点を提供することを期待しています。
論文 参考訳(メタデータ) (2025-08-12T11:24:16Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases [1.6544167074080365]
本稿では、まず、外部キー関係に基づくスキーマグラフを構築する、ゼロショットでトレーニング不要なスキーマリンク手法を提案する。
我々は、結合すべきテーブルや列の最適なシーケンスを特定するために、古典的なパスフィニングアルゴリズムと後処理を適用する。
提案手法はBIRDベンチマークの最先端結果を実現し,従来の特殊化,微調整,複雑な多段階LCMに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T20:42:36Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。
我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。
トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-24T18:50:26Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。