論文の概要: Falcon: A Comprehensive Chinese Text-to-SQL Benchmark for Enterprise-Grade Evaluation
- arxiv url: http://arxiv.org/abs/2510.24762v1
- Date: Thu, 23 Oct 2025 03:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.399656
- Title: Falcon: A Comprehensive Chinese Text-to-SQL Benchmark for Enterprise-Grade Evaluation
- Title(参考訳): Falcon: 企業グレード評価のための総合的な中国のテキスト-SQLベンチマーク
- Authors: Wenzhen Luo, Wei Guan, Yifan Yao, Yimin Pan, Feng Wang, Zhipeng Yu, Zhe Wen, Liang Chen, Yihong Zhuang,
- Abstract要約: Falconは、企業互換の方言(Max/Hive)をベースとした、中国のクロスドメインテキスト・コンパレータベンチマークである。
28のデータベースに600の中国の質問が含まれており、77%はマルチテーブルの推論と4つのテーブルの半分以上のタッチを必要としている。
評価のために、ロバストな実行コンパレータと自動評価パイプラインをリリースする。
- 参考スコア(独自算出の注目度): 14.191844670418568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Falcon, a cross-domain Chinese text-to-SQL benchmark grounded in an enterprise-compatible dialect (MaxCompute/Hive). It contains 600 Chinese questions over 28 databases; 77% require multi-table reasoning and over half touch more than four tables. Each example is annotated along SQL-computation features and Chinese semantics. For evaluation, we release a robust execution comparator and an automated evaluation pipeline, under which all current state-of-the-art large-scale models (including Deepseek) achieve accuracies of at most 50%. Major errors originate from two sources: (1) schema linking in large enterprise landscapes - hundreds of tables, denormalized fields, ambiguous column names, implicit foreign-key relations and domain-specific synonyms that make correct join/column selection difficult; and (2) mapping concise, colloquial Chinese into the exact operators and predicates required for analytics - e.g., choosing the correct aggregation and group-by keys, expressing time windows and granularities, applying unit conversions, handling NULLs and data-quality rules, and formulating nested or windowed subqueries. Falcon therefore targets Chinese-specific semantics and enterprise dialects (abbreviations, business jargon, fuzzy entity references) and provides a reproducible middle ground before full production deployment by using realistic enterprise schemas, query templates, an execution comparator, and an automated evaluation pipeline for end-to-end validation.
- Abstract(参考訳): 我々は、企業互換の方言(MaxCompute/Hive)をベースとした、ドメイン横断の中国製テキスト-SQLベンチマークであるFalconを紹介します。
28のデータベースに600の中国の質問が含まれており、77%はマルチテーブルの推論と4つのテーブルの半分以上のタッチを必要としている。
それぞれの例は、SQL計算機能と中国語のセマンティクスに沿って注釈付けされている。
評価のために、我々は堅牢な実行コンパレータと自動評価パイプラインをリリースし、現在最先端の大規模モデル(Deepseekを含む)が50%以上の精度で達成されている。
大規模なエンタープライズランドスケープにおけるスキーマリンク - 数百のテーブル、非正規化フィールド、曖昧なカラム名、暗黙の外国キー関係、そして正しい結合/カラム選択を困難にするドメイン固有の同義語、そして(2)簡潔な中国語を正確な演算子にマッピングし、分析に必要な述語 - 例えば、正しい集約とグループバイキーを選択し、時間ウィンドウと粒度を表現し、ユニット変換を適用し、NULLとデータ品質ルールを扱い、ネストされたまたはウィンドウ化されたサブクエリを定式化する。
そのためFalconは、中国固有のセマンティクスとエンタープライズ方言(略語、ビジネス用語、ファジィエンティティ参照)をターゲットにしており、現実的なエンタープライズスキーマ、クエリテンプレート、実行コンパレータ、エンドツーエンドの検証のための自動評価パイプラインを使用することで、完全な製品展開前に再現可能な中間層を提供する。
関連論文リスト
- SING-SQL: A Synthetic Data Generation Framework for In-Domain Text-to-SQL Translation [2.0799061948689306]
SING-aは、高品質で高カバレッジな合成テキストデータを生成するための、完全に自動化された2段階のフレームワークである。
SING-LMは、合成データに基づいて微調整されたコンパクト言語モデルのファミリーである。
論文 参考訳(メタデータ) (2025-09-30T02:14:49Z) - Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks [3.3705400036304205]
セマンティックドリフト(Semantic drift)は、データとガバナンスを妥協し、テキストからRAGまでのサービスの有用性を損なう。
本稿では,多言語エンタープライズパイプラインスクリプトから細粒度スキーマを自動抽出するフレームワークを提案する。
結果:単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でGPTシリーズに匹敵するパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-08-10T05:04:32Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。