Fugu-MT 論文翻訳(概要): BIS: NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios

論文の概要: BIS: NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios

arxiv url: http://arxiv.org/abs/2410.22925v1
Date: Wed, 30 Oct 2024 11:33:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.298075
Title: BIS: NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios
Title（参考訳）: BIS:ビジネスインテリジェンスシナリオのためのNL2SQLサービス評価ベンチマーク
Authors: Bora Caglayan, Mingxue Wang, John D. Kelleher, Shen Fei, Gui Tong, Jiandong Ding, Puchao Zhang,
Abstract要約: 既存のNL2ベンチマークは、プロダクションBIシナリオには適していない。産業用BIシナリオにおける典型的なNL問題に焦点をあてた新しいベンチマークを開発した。
参考スコア（独自算出の注目度）: 3.5078637813733473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NL2SQL (Natural Language to Structured Query Language) transformation has seen wide adoption in Business Intelligence (BI) applications in recent years. However, existing NL2SQL benchmarks are not suitable for production BI scenarios, as they are not designed for common business intelligence questions. To address this gap, we have developed a new benchmark focused on typical NL questions in industrial BI scenarios. We discuss the challenges of constructing a BI-focused benchmark and the shortcomings of existing benchmarks. Additionally, we introduce question categories in our benchmark that reflect common BI inquiries. Lastly, we propose two novel semantic similarity evaluation metrics for assessing NL2SQL capabilities in BI applications and services.
Abstract（参考訳）: NL2SQL(Natural Language to Structured Query Language)変換は、近年、ビジネスインテリジェンス(BI)アプリケーションに広く採用されている。しかし、既存のNL2SQLベンチマークは、一般的なビジネスインテリジェンスの問題のために設計されていないため、プロダクションBIシナリオには適していない。このギャップに対処するため、産業用BIシナリオにおける典型的なNL問題に焦点を当てた新しいベンチマークを開発した。 BIに焦点を当てたベンチマークを構築する際の課題と既存のベンチマークの欠点について論じる。さらに、一般的なBI問い合わせを反映した質問カテゴリをベンチマークに導入する。最後に,BIアプリケーションおよびサービスにおけるNL2SQL機能評価のための2つの新しい意味類似性評価指標を提案する。

関連論文リスト

Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL [20.156191782890797]
本稿では,自然言語質問,データベース,対話履歴を問う問合せを生成するConversational Text-to-Noタスクを提案する。そこで我々は,クエリ固有の推論機能を備えた小さな言語モデルを実現するフレームワークであるStage-MCTSを提案する。提案手法は最先端の大規模推論モデルより優れ,実行値の一致精度を最大7.93%向上させる。
論文参考訳（メタデータ） (2026-02-13T03:35:38Z)
Agent Bain vs. Agent McKinsey: A New Text-to-SQL Benchmark for the Business Domain [10.89800905114692]
我々は、現実世界のビジネスコンテキストに特化して設計された新しいベンチマークであるCORGIを紹介する。ビジネスクエリの4つのカテゴリ – 説明性,説明性,予測性,レコメンデーション – に関する質問を提供する。 CORGIのパフォーマンスは高いレベルの質問で低下し,正確な予測と実行可能な計画の提供に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-10-08T17:57:35Z)
nvBench 2.0: A Benchmark for Natural Language to Visualization under Ambiguity [10.917884908223288]
曖昧なシナリオでNL2VISシステムを評価するために設計された新しいベンチマークであるnvBench 2.0を紹介する。 nvBench 2.0には7,878の自然言語クエリと24,076の視覚化が含まれている。また,nvBench 2.0をベースとしたLLMモデルであるStep-NL2VISを提案する。
論文参考訳（メタデータ） (2025-03-17T07:20:11Z)
Fundamental Challenges in Evaluating Text2SQL Solutions and Detecting Their Limitations [9.363953429870007]
予測と評価の誤りを生じる可能性のあるすべてのText2制限を統一した分類法を提案する。本稿では,実例による制限の原因について述べるとともに,分類学における各カテゴリーに対する潜在的な緩和ソリューションを提案する。
論文参考訳（メタデータ） (2025-01-30T08:31:09Z)
E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文参考訳（メタデータ） (2024-09-25T09:02:48Z)
A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLM) を用いたNL2手法のレビューを行う。 LLM時代におけるNL2の研究課題とオープン問題について論じる。
論文参考訳（メタデータ） (2024-08-09T14:59:36Z)
AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。 AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文参考訳（メタデータ） (2024-07-11T10:03:47Z)
AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文参考訳（メタデータ） (2024-06-27T10:43:04Z)
DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-06-12T06:33:54Z)
LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文参考訳（メタデータ） (2024-02-13T02:28:57Z)
Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文参考訳（メタデータ） (2023-12-22T14:34:19Z)
Controlled Natural Languages for Specifying Business Intelligence Applications [0.0]
2種類のCNL, CNL-BI, ITLingo ASLが用いられた。仮説的BIアプリケーションであるMEDBuddy-BIは、National Health Serviceのために開発された。
論文参考訳（メタデータ） (2023-11-20T16:30:12Z)
Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文参考訳（メタデータ） (2023-08-29T14:59:54Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2022-10-21T11:30:07Z)
CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文参考訳（メタデータ） (2021-12-27T11:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。