論文の概要: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
- arxiv url: http://arxiv.org/abs/2510.13853v1
- Date: Sat, 11 Oct 2025 23:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.477047
- Title: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
- Title(参考訳): BenchPress: テキストとSQLのベンチマークを高速にキュレーションするためのアノテーションシステム
- Authors: Fabian Wenz, Omar Bouattour, Devin Yang, Justin Choi, Cecil Gregg, Nesime Tatbul, Çağatay Demiralp,
- Abstract要約: BenchPressは、ドメイン固有のテキスト間ベンチマークの作成を高速化するために設計された、ループ内の人間システムである。
検索拡張生成(LLM)とLLMを使用して、複数の自然言語記述を提案する。
人間の専門家は、これらのドラフトを選択し、ランク付けし、編集し、正確さとドメインアライメントを保証する。
- 参考スコア(独自算出の注目度): 2.765551649887593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストからSQL生成を含む多くのタスクにうまく適用されている。
しかし、この研究の多くは、Fiben、Spider、Birdなどの公開データセットに焦点を当てている。
以前の調査では、LLMは大規模なプライベートなエンタープライズデータウェアハウスのクエリにはあまり効果がなく、最初のプライベートなエンタープライズ向けテキスト-SQLベンチマークであるBeaverをリリースした。
Beaverを作成するには、SQLログを活用しました。
しかし、これらのログを手動でアノテートして、どの自然言語の質問に答えるかを特定するのは大変な作業だ。
高度に訓練された専門家であるデータベース管理者に、対応する自然言語の発話を構築し、検証するための追加の作業を求めることは、難しいだけでなく、非常にコストがかかる。
この課題に対処するために、ドメイン固有のテキスト・トゥ・SQLベンチマークの作成を高速化するために設計された、ヒューマン・イン・ザ・ループシステムであるBenchPressを紹介した。
SQLクエリが与えられた場合、BenchPressは検索拡張生成(RAG)とLLMを使用して、複数の自然言語記述を提案する。
人間の専門家は、これらのドラフトを選択し、ランク付けし、編集し、正確さとドメインアライメントを保証する。
我々は、アノテーション付きエンタープライズSQLログでBenchPressを評価し、LCMアシストアノテーションが高品質のベンチマークを作成するのに必要な時間と労力を大幅に削減することを示した。
この結果から,人間の検証とLLM生成提案を組み合わせることで,アノテーションの精度,ベンチマークの信頼性,モデル評価の堅牢性の向上が期待できる。
BenchPressはカスタムベンチマークの作成を合理化することによって、研究者や実践者が特定のドメイン固有のワークロード上でテキストからSQLモデルを評価するメカニズムを提供する。
BenchPressは、https://github.com/fabian-wenz/enterprise-txt2sqlのGitHubリポジトリから無料で利用できる。
関連論文リスト
- Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain [10.89800905114692]
我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。
ビジネスクエリの4つのカテゴリ – 説明性,説明性,予測性,レコメンデーション – に関する質問を提供する。
CORGIのパフォーマンスは高いレベルの質問で低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-10-08T17:57:35Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。
本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-22T14:34:19Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。