論文の概要: Are LLMs Overkill for Databases?: A Study on the Finiteness of SQL
- arxiv url: http://arxiv.org/abs/2603.25568v1
- Date: Thu, 26 Mar 2026 15:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.363888
- Title: Are LLMs Overkill for Databases?: A Study on the Finiteness of SQL
- Title(参考訳): LLMはデータベースのオーバースキルか?:SQLの有限性に関する研究
- Authors: Yue Li, David Mimno, Unso Eun Seo Jo,
- Abstract要約: 自然言語質問の翻訳は実用的複雑性において有限であることを示す。
データベーステーブル数の増加と複雑性の増加との間には明確なモノトニックな関係は存在しない。
これは、コード生成のためのLCMは、データベースアクセスの領域では有用であるが、狭い、非常に公式な空間で運用されていることを示唆している。
- 参考スコア(独自算出の注目度): 7.475038197264023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating natural language to SQL for data retrieval has become more accessible thanks to code generation LLMs. But how hard is it to generate SQL code? While databases can become unbounded in complexity, the complexity of queries is bounded by real life utility and human needs. With a sample of 376 databases, we show that SQL queries, as translations of natural language questions are finite in practical complexity. There is no clear monotonic relationship between increases in database table count and increases in complexity of SQL queries. In their template forms, SQL queries follow a Power Law-like distribution of frequency where 70% of our tested queries can be covered with just 13% of all template types, indicating that the high majority of SQL queries are predictable. This suggests that while LLMs for code generation can be useful, in the domain of database access, they may be operating in a narrow, highly formulaic space where templates could be safer, cheaper, and auditable.
- Abstract(参考訳): データ検索のために自然言語をSQLに翻訳することは、コード生成のLLMのおかげで、よりアクセスしやすくなっている。
しかし、SQLコードを生成するのはどのくらい難しいのか?
データベースは複雑さの中で無制限になるが、クエリの複雑さは現実のユーティリティと人間のニーズによって制限される。
376のデータベースのサンプルを用いて、自然言語質問の翻訳が実用上の複雑さにおいて有限であるとして、SQLクエリが示される。
データベーステーブル数の増加とSQLクエリの複雑さの増加との間には、明確なモノトニックな関係は存在しない。
テンプレート形式では、SQLクエリは、テスト済みクエリの70%をすべてのテンプレートタイプのわずか13%でカバーできる、Power Lawのような頻度分布に従っています。
これは、コード生成のためのLCMは有用であるが、データベースアクセスの領域では、テンプレートがより安全で安価で監査可能な狭い、非常に公式な空間で運用されている可能性があることを示唆している。
関連論文リスト
- Weaver: Interweaving SQL and LLM for Table Reasoning [62.55797244714265]
Weaverは、構造化データ検索のためのsqlとセマンティック処理のためのLLMを組み合わせたフレキシブルなステップバイステッププランを生成する。
Weaverは、4つのTableQAデータセットで、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2025-05-25T03:27:37Z) - Can the Rookies Cut the Tough Cookie? Exploring the Use of LLMs for SQL Equivalence Checking [15.42143912008553]
クエリ等価性チェックのためのSQLEquiQuestという,新しい,現実的で,十分に複雑なベンチマークを導入する。
我々は,様々なプロンプト戦略とテキスト内学習例を用いて,最先端のLLMを評価した。
解析の結果,LLMは等価性予測に強いバイアスを示し,非等価性対に対する性能は一貫して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-12-07T06:50:12Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? [7.59813709836711]
大きな言語モデル(LLM)は、会話、質問応答、課題解決において強力な推論能力を示している。
LLMの高品質な応答生成を支援するために,Miniature & Mull と Explain & Compare の2つのプロンプト技術を提案する。
論文 参考訳(メタデータ) (2023-12-16T05:01:23Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。