論文の概要: Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain
- arxiv url: http://arxiv.org/abs/2510.07309v2
- Date: Thu, 09 Oct 2025 02:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.599469
- Title: Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain
- Title(参考訳): Agent Bain vs. Agent McKinsey: ビジネスドメインのための新しいテキストからSQLのベンチマーク
- Authors: Yue Li, Ran Tao, Derek Hommel, Yusuf Denizay Dönder, Sungyong Chang, David Mimno, Unso Eun Seo Jo,
- Abstract要約: 我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。
ビジネスクエリの4つのカテゴリ – 説明性,説明性,予測性,レコメンデーション – に関する質問を提供する。
CORGIのパフォーマンスは高いレベルの質問で低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 10.89800905114692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the business domain, where data-driven decision making is crucial, text-to-SQL is fundamental for easy natural language access to structured data. While recent LLMs have achieved strong performance in code generation, existing text-to-SQL benchmarks remain focused on factual retrieval of past records. We introduce CORGI, a new benchmark specifically designed for real-world business contexts. CORGI is composed of synthetic databases inspired by enterprises such as Doordash, Airbnb, and Lululemon. It provides questions across four increasingly complex categories of business queries: descriptive, explanatory, predictive, and recommendational. This challenge calls for causal reasoning, temporal forecasting, and strategic recommendation, reflecting multi-level and multi-step agentic intelligence. We find that LLM performance drops on high-level questions, struggling to make accurate predictions and offer actionable plans. Based on execution success rate, the CORGI benchmark is about 21% more difficult than the BIRD benchmark. This highlights the gap between popular LLMs and the need for real-world business intelligence. We release a public dataset and evaluation framework, and a website for public submissions.
- Abstract(参考訳): データ駆動による意思決定が不可欠であるビジネス領域では、構造化データへの自然言語アクセスを容易にするために、テキストからSQLが不可欠です。
近年のLLMはコード生成において高いパフォーマンスを達成しているが、既存のテキスト-SQLベンチマークは依然として過去のレコードの事実検索に重点を置いている。
我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。
CORGIは、Doordash、Airbnb、Lululemonといった企業にインスパイアされた合成データベースで構成されている。
ビジネスクエリの4つのより複雑なカテゴリ – 説明的,説明的,予測的,レコメンデーション – に関する質問を提供する。
この課題は、多段階および多段階のエージェントインテリジェンスを反映した因果推論、時間予測、戦略的レコメンデーションを必要とする。
LLMの性能は高レベルな質問に対して低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
実行の成功率に基づいて、CORGIベンチマークはBIRDベンチマークよりも約21%難しい。
これは、人気のあるLLMと現実世界のビジネスインテリジェンスの必要性のギャップを浮き彫りにする。
パブリックデータセットと評価フレームワーク、公開提出のためのWebサイトをリリースします。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - BEAVER: An Enterprise Benchmark for Text-to-SQL [5.984348784381797]
既存のテキスト・トゥ・ザ・シェルフのベンチマークは、主に人為的な質問対を持つWebテーブルから構築されている。
これは、実際のプライベートなエンタープライズデータウェアハウスからソースされた最初のエンタープライズ向けテキスト・トゥ・ザ・シェルフ・ベンチマークです。
論文 参考訳(メタデータ) (2024-09-03T16:37:45Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。