論文の概要: Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?
- arxiv url: http://arxiv.org/abs/2602.21480v1
- Date: Wed, 25 Feb 2026 01:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.664036
- Title: Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?
- Title(参考訳): LLMエージェントは"Text-to-Big SQL"でどれくらい良いのか?
- Authors: Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas,
- Abstract要約: テキストとビッグデータはどちらも広範囲にベンチマークされた分野であるが、共同で評価する研究は限られている。
本稿では,テキスト・トゥ・ビッグ・データを評価するための新しい指標と代表的な指標を紹介する。
本研究は,多様なユーザニーズに適応可能なデータベースに依存しない実運用レベルのLCMエージェントに着目した。
- 参考スコア(独自算出の注目度): 1.0705399532413618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL and Big Data are both extensively benchmarked fields, yet there is limited research that evaluates them jointly. In the real world, Text-to-SQL systems are often embedded with Big Data workflows, such as large-scale data processing or interactive data analytics. We refer to this as "Text-to-Big SQL". However, existing text-to-SQL benchmarks remain narrowly scoped and overlook the cost and performance implications that arise at scale. For instance, translation errors that are minor on small datasets lead to substantial cost and latency overheads as data scales, a relevant issue completely ignored by text-to-SQL metrics. In this paper, we overcome this overlooked challenge by introducing novel and representative metrics for evaluating Text-to-Big SQL. Our study focuses on production-level LLM agents, a database-agnostic system adaptable to diverse user needs. Via an extensive evaluation of frontier models, we show that text-to-SQL metrics are insufficient for Big Data. In contrast, our proposed text-to-Big SQL metrics accurately reflect execution efficiency, cost, and the impact of data scale. Furthermore, we provide LLM-specific insights, including fine-grained, cross-model comparisons of latency and cost.
- Abstract(参考訳): Text-to-SQLとBig Dataはどちらも広範囲にベンチマークされたフィールドだが、共同で評価する研究は限られている。
現実の世界では、テキストからSQLへのシステムは、大規模なデータ処理やインタラクティブなデータ分析といったビッグデータワークフローに組み込まれていることが多い。
これを“Text-to-Big SQL”と呼ぶ。
しかし、既存のテキスト-SQLベンチマークはスコープが狭く、大規模に発生するコストとパフォーマンスの影響を見落としている。
例えば、小さなデータセットでマイナーな変換エラーは、データスケールの大幅なコストとレイテンシのオーバーヘッドを招き、関連する問題はテキストからSQLメトリクスによって完全に無視される。
本稿では,テキスト・トゥ・ビッグSQLを評価するための新しい指標と代表的な指標を導入することで,この見過ごされた課題を克服する。
本研究は,多様なユーザニーズに適応可能なデータベースに依存しない実運用レベルのLCMエージェントに着目した。
また、フロンティアモデルの広範な評価により、ビッグデータにはテキストとSQLのメトリクスが不十分であることを示す。
対照的に、提案したテキストから大きなSQLメトリクスは、実行効率、コスト、データスケールの影響を正確に反映しています。
さらに、レイテンシとコストの詳細なモデル間比較を含む、LLM固有の洞察を提供する。
関連論文リスト
- PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation [21.0303026118673]
本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
論文 参考訳(メタデータ) (2025-09-27T14:41:13Z) - CRED-SQL: Enhancing Real-world Large Scale Database Text-to-SQL Parsing through Cluster Retrieval and Execution Description [15.080310729603466]
CRED-は大規模データベース向けに設計されたフレームワークで、クラスタ検索と実行記述を統合している。
自然言語質問(NLQ)と対応するsqlクエリのギャップを埋める。
CRED-は最新のgit-the-art(SOTA)パフォーマンスを実現し、その有効性とスケーラビリティを検証する。
論文 参考訳(メタデータ) (2025-08-18T09:43:07Z) - BEAVER: An Enterprise Benchmark for Text-to-SQL [5.984348784381797]
既存のテキスト・トゥ・ザ・シェルフのベンチマークは、主に人為的な質問対を持つWebテーブルから構築されている。
これは、実際のプライベートなエンタープライズデータウェアハウスからソースされた最初のエンタープライズ向けテキスト・トゥ・ザ・シェルフ・ベンチマークです。
論文 参考訳(メタデータ) (2024-09-03T16:37:45Z) - A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。
LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-08-09T14:59:36Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。