論文の概要: CLARITY: A Framework and Benchmark for Conversational Language Ambiguity and Unanswerability in Interactive NL2SQL Systems
- arxiv url: http://arxiv.org/abs/2604.22313v1
- Date: Fri, 24 Apr 2026 07:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.385918
- Title: CLARITY: A Framework and Benchmark for Conversational Language Ambiguity and Unanswerability in Interactive NL2SQL Systems
- Title(参考訳): CLARITY:対話型NL2SQLシステムにおける対話型言語曖昧性と未解決性のためのフレームワークとベンチマーク
- Authors: Tabinda Sarwar, Farhad Moghimifar, Cong Duy Vu Hoang, Xiaoxiao Ma, Shawn Chang Xu, Fahimeh Saleh, Poorya Zaremoodi, Avirup Sil, Katrin Kirchhoff,
- Abstract要約: 既存のベンチマークは通常、曖昧さの単一のソースを仮定し、解決のためにユーザインタラクションに依存します。
Clarityは,多面的曖昧さと多様なユーザ動作を備えたNL2ベンチマークを自動生成するフレームワークである。
業界グレードのNL2システムにおいて,より堅牢なあいまいさ検出と解決の必要性を強調した。
- 参考スコア(独自算出の注目度): 13.595364881493943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: NL2SQL systems deployed in industry settings often encounter ambiguous or unanswerable queries, particularly in interactive scenarios with incomplete user clarification. Existing benchmarks typically assume a single source of ambiguity and rely on user interaction for resolution, overlooking realistic failure modes. We introduce Clarity, a framework for automatically generating an NL2SQL benchmark with multi-faceted ambiguities and diverse user behaviors across both single- and multi-turn settings. Using a constraint-driven pipeline, Clarity transforms executable SQL into ambiguous queries, augmented with grounded conversational continuations and schema-level metadata. Empirical evaluation on Spider and BIRD shows that leading NL2SQL systems, including those based on strong LLMs, suffer significant performance degradation under multi-faceted ambiguity. While these systems often detect ambiguity, they struggle to accurately localize and resolve the underlying schema-level sources. Our results highlight the need for more robust ambiguity detection and resolution in industry-grade NL2SQL systems.
- Abstract(参考訳): NL2SQLシステムは、不完全なユーザの明確化を伴う対話的なシナリオにおいて、あいまいなクエリや解決不可能なクエリに遭遇することが多い。
既存のベンチマークでは、通常、曖昧さの単一ソースを前提として、現実的な障害モードを見渡すために、ユーザのインタラクションに依存しています。
Clarityは,複数面の曖昧さと多様なユーザ動作を備えたNL2SQLベンチマークを自動的に生成するフレームワークである。
制約駆動パイプラインを使用して、Clarityは実行可能SQLをあいまいなクエリに変換し、基盤となる会話継続とスキーマレベルのメタデータで拡張する。
スパイダーとBIRDの実証評価では、強力なLLMをベースとしたNL2SQL系は、多面的曖昧さの下で顕著な性能低下を経験している。
これらのシステムは曖昧さをしばしば検出するが、基礎となるスキーマレベルのソースを正確にローカライズし解決するのに苦労する。
我々の結果は、業界グレードのNL2SQLシステムにおいて、より堅牢なあいまいさの検出と解決の必要性を強調している。
関連論文リスト
- FD-NL2SQL: Feedback-Driven Clinical NL2SQL that Improves with Use [10.080176148010247]
腫瘍学のトライアルリポジトリを探索する臨床医は、バイオマーカー、エンドポイント、介入、時間に対するアドホックでマルチ制約のクエリを必要とすることが多い。
我々はFD-NL2合成のデモを行う。
論文 参考訳(メタデータ) (2026-04-17T02:45:57Z) - ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。
ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。
ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文 参考訳(メタデータ) (2026-03-04T05:27:20Z) - Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文 参考訳(メタデータ) (2025-12-28T02:25:33Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - AmbiSQL: Interactive Ambiguity Detection and Resolution for Text-to-SQL [0.9217021281095907]
本稿では,クエリのあいまいさを自動的に検出し,ユーザの意図を明らかにするための複数の質問を通じてユーザをガイドする対話型システムAmbiを紹介する。
Ambiは曖昧さ検出の87.2%を達成し、テキストからデータセットシステムに統合された場合、精度を50%向上する。
論文 参考訳(メタデータ) (2025-08-21T06:10:28Z) - ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Consensus Enforcement, and Column Exploration [32.83579488224367]
ReFoRCEは、スパイダー2.0のリーダーボードのトップのテキスト・トゥ・信頼のエージェントです。
ReFoRCEは35.83のスパイダー2.0-Snowと36.56のスコアで最先端の結果を得た。
論文 参考訳(メタデータ) (2025-02-02T05:25:03Z) - AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。