論文の概要: Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain
- arxiv url: http://arxiv.org/abs/2510.07309v2
- Date: Thu, 09 Oct 2025 02:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.599469
- Title: Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain
- Title(参考訳): Agent Bain vs. Agent McKinsey: ビジネスドメインのための新しいテキストからSQLのベンチマーク
- Authors: Yue Li, Ran Tao, Derek Hommel, Yusuf Denizay Dönder, Sungyong Chang, David Mimno, Unso Eun Seo Jo,
- Abstract要約: 我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。
ビジネスクエリの4つのカテゴリ – 説明性,説明性,予測性,レコメンデーション – に関する質問を提供する。
CORGIのパフォーマンスは高いレベルの質問で低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 10.89800905114692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the business domain, where data-driven decision making is crucial, text-to-SQL is fundamental for easy natural language access to structured data. While recent LLMs have achieved strong performance in code generation, existing text-to-SQL benchmarks remain focused on factual retrieval of past records. We introduce CORGI, a new benchmark specifically designed for real-world business contexts. CORGI is composed of synthetic databases inspired by enterprises such as Doordash, Airbnb, and Lululemon. It provides questions across four increasingly complex categories of business queries: descriptive, explanatory, predictive, and recommendational. This challenge calls for causal reasoning, temporal forecasting, and strategic recommendation, reflecting multi-level and multi-step agentic intelligence. We find that LLM performance drops on high-level questions, struggling to make accurate predictions and offer actionable plans. Based on execution success rate, the CORGI benchmark is about 21% more difficult than the BIRD benchmark. This highlights the gap between popular LLMs and the need for real-world business intelligence. We release a public dataset and evaluation framework, and a website for public submissions.
- Abstract(参考訳): データ駆動による意思決定が不可欠であるビジネス領域では、構造化データへの自然言語アクセスを容易にするために、テキストからSQLが不可欠です。
近年のLLMはコード生成において高いパフォーマンスを達成しているが、既存のテキスト-SQLベンチマークは依然として過去のレコードの事実検索に重点を置いている。
我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。
CORGIは、Doordash、Airbnb、Lululemonといった企業にインスパイアされた合成データベースで構成されている。
ビジネスクエリの4つのより複雑なカテゴリ – 説明的,説明的,予測的,レコメンデーション – に関する質問を提供する。
この課題は、多段階および多段階のエージェントインテリジェンスを反映した因果推論、時間予測、戦略的レコメンデーションを必要とする。
LLMの性能は高レベルな質問に対して低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
実行の成功率に基づいて、CORGIベンチマークはBIRDベンチマークよりも約21%難しい。
これは、人気のあるLLMと現実世界のビジネスインテリジェンスの必要性のギャップを浮き彫りにする。
パブリックデータセットと評価フレームワーク、公開提出のためのWebサイトをリリースします。
関連論文リスト
- Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。
テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。
この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文 参考訳(メタデータ) (2025-10-13T01:29:54Z) - BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation [2.765551649887593]
BenchPressは、ドメイン固有のテキスト間ベンチマークの作成を高速化するために設計された、ループ内の人間システムである。
検索拡張生成(LLM)とLLMを使用して、複数の自然言語記述を提案する。
人間の専門家は、これらのドラフトを選択し、ランク付けし、編集し、正確さとドメインアライメントを保証する。
論文 参考訳(メタデータ) (2025-10-11T23:50:12Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - BEAVER: An Enterprise Benchmark for Text-to-SQL [5.984348784381797]
既存のテキスト・トゥ・ザ・シェルフのベンチマークは、主に人為的な質問対を持つWebテーブルから構築されている。
これは、実際のプライベートなエンタープライズデータウェアハウスからソースされた最初のエンタープライズ向けテキスト・トゥ・ザ・シェルフ・ベンチマークです。
論文 参考訳(メタデータ) (2024-09-03T16:37:45Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。
本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-22T14:34:19Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。