論文の概要: PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation
- arxiv url: http://arxiv.org/abs/2509.23338v1
- Date: Sat, 27 Sep 2025 14:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.171078
- Title: PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation
- Title(参考訳): PARROT: システム間SQL翻訳におけるLLMの評価ベンチマーク
- Authors: Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou,
- Abstract要約: 本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
- 参考スコア(独自算出の注目度): 21.0303026118673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often just SQLite) and (2) cannot capture many system-specific SQL dialects (e.g., customized functions, data types, and syntax rules). Thus, in this paper, we introduce PARROT, a Practical And Realistic BenchmaRk for CrOss-System SQL Translation. PARROT comprises 598 translation pairs from 38 open-source benchmarks and real-world business services, specifically prepared to challenge system-specific SQL understanding (e.g., LLMS achieve lower than 38.53% accuracy on average). We also provide multiple benchmark variants, including PARROT-Diverse with 28,003 translations (for extensive syntax testing) and PARROT-Simple with 5,306 representative samples (for focused stress testing), covering 22 production-grade database systems. To promote future research, we release a public leaderboard and source code at: https://code4db.github.io/parrot-bench/.
- Abstract(参考訳): 大規模言語モデル(LLMS)は、テキストからSQLへのタスクの有効性が増している。
しかし、もう1つの密接に関連する問題であるクロスシステムSQL翻訳(SQL-to-SQL)は、1つのデータベースシステム(例えばMySQL)で書かれたクエリを、別のシステム(例えばClickHouse)で同等のクエリに適応させるものである。
既存のSQLベンチマークは、(1)限られたデータベースシステム(しばしばSQLiteだけ)に焦点を当て、(2)多くのシステム固有のSQL方言(例えば、カスタマイズされた関数、データ型、シンタックスルール)をキャプチャできないSQL-to-SQL評価に適していない。
そこで本稿では,CrOss-System SQL 翻訳のための実践的で現実的な BenchmaRk である PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスの598の翻訳ペアで構成され、特にシステム固有のSQL理解に挑戦するために準備されている(例えば、LLMSは平均で38.53%未満の精度を達成する)。
28,003の変換を持つPARROT-Diverseや5,306のサンプルを持つPARROT-Simpleなど、22のプロダクショングレードデータベースシステムをカバーする複数のベンチマーク版も提供しています。
将来の研究を促進するため、公開リーダボードとソースコードをhttps://code4db.github.io/parrot-bench/.comで公開しています。
関連論文リスト
- SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。