論文の概要: ROSE: An Intent-Centered Evaluation Metric for NL2SQL
- arxiv url: http://arxiv.org/abs/2604.12988v1
- Date: Tue, 14 Apr 2026 17:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.582505
- Title: ROSE: An Intent-Centered Evaluation Metric for NL2SQL
- Title(参考訳): ROSE: NL2SQLのインテント中心評価メトリクス
- Authors: Wenqi Pei, Shizheng Hou, Boyan Li, Han Chen, Zhichao Shi, Yuyu Luo,
- Abstract要約: 自然言語 tosql (NL2) ソリューションの有効性を評価するための広く使われている指標である Execution Accuracy (EX) はますます信頼できないものになりつつある。
ROSEは、予測されたsqlがその疑問に答えるかどうかに焦点を当てたメトリクスであり、基礎となるSQLとの整合性に重点を置いている。
専門家による検証セット ROSE-VEC では、ROSE が人間の専門家と最高の合意を達成し、Cohen's Kappa の24%近くを上回りました。
- 参考スコア(独自算出の注目度): 16.776468009572785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Execution Accuracy (EX), the widely used metric for evaluating the effectiveness of Natural Language to SQL (NL2SQL) solutions, is becoming increasingly unreliable. It is sensitive to syntactic variation, ignores that questions may admit multiple interpretations, and is easily misled by erroneous ground-truth SQL. To address this, we introduce ROSE, an intent-centered metric that focuses on whether the predicted SQL answers the question, rather than consistency with the ground-truth SQL under the reference-dependent paradigm. ROSE employs an adversarial Prover-Refuter cascade: SQL Prover assesses the semantic correctness of a predicted SQL against the user's intent independently, while Adversarial Refuter uses the ground-truth SQL as evidence to challenge and refine this judgment. On our expert-aligned validation set ROSE-VEC, ROSE achieves the best agreement with human experts, outperforming the next-best metric by nearly 24% in Cohen's Kappa. We also conduct a largescale re-evaluation of 19 NL2SQL methods, revealing four valuable insights. We release ROSE and ROSE-VEC to facilitate more reliable NL2SQL research.
- Abstract(参考訳): 自然言語 to SQL(NL2SQL)ソリューションの有効性を評価するための広く使われている指標であるExecution Accuracy(EX)は、ますます信頼できないものになりつつある。
構文的変動に敏感であり、質問が複数の解釈を許容する可能性があることを無視し、誤った接頭辞SQLによって容易に誤解される。
これを解決するために、ROSEという意図中心のメトリクスを紹介します。これは、予測されたSQLが、参照依存のパラダイムの下で、基礎となる真実のSQLとの整合性よりも、その疑問に答えるかどうかに焦点を当てたものです。
SQL Proverは、予測されたSQLのセマンティックな正当性を、ユーザの意図に対して独立して評価しますが、Adversarial Refuterは、この判断に挑戦し洗練するための証拠として、基幹のSQLを使用します。
専門家による検証セット ROSE-VEC では、ROSE が人間の専門家と最高の合意を達成し、コーエンの Kappa の24% 近くを上回りました。
また、19のNL2SQL手法の大規模な再評価を行い、4つの重要な洞察を明らかにした。
我々は、より信頼性の高いNL2SQL研究を容易にするため、ROSEとROSE-VECをリリースする。
関連論文リスト
- SQL-Commenter: Aligning Large Language Models for SQL Comment Generation with Direct Preference Optimization [19.179416473507633]
LLaMA-3.1-8Bに基づくコメント生成手法を提案する。
まず、専門家が検証したコメントを含むcomplexsqlクエリの包括的なデータセットを構築する。
次に,LLMの構文と意味理解を強化するために,大規模コーパス上で連続的な事前学習を行う。
最後に,人間のフィードバックを用いた直接選好最適化(DPO)を提案する。
論文 参考訳(メタデータ) (2026-03-19T08:23:40Z) - Evaluating NL2SQL via SQL2NL [45.88028371034407]
新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
論文 参考訳(メタデータ) (2025-09-04T21:03:59Z) - AmbiSQL: Interactive Ambiguity Detection and Resolution for Text-to-SQL [0.9217021281095907]
本稿では,クエリのあいまいさを自動的に検出し,ユーザの意図を明らかにするための複数の質問を通じてユーザをガイドする対話型システムAmbiを紹介する。
Ambiは曖昧さ検出の87.2%を達成し、テキストからデータセットシステムに統合された場合、精度を50%向上する。
論文 参考訳(メタデータ) (2025-08-21T06:10:28Z) - SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [8.680252929322684]
そこで我々は,sqlCriticBenchというベンチマークとともに,節単位の批判生成タスクを導入し,詳細なエラーローカライゼーションを行う。
また,自動トレーニングデータセットキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:52:39Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。