論文の概要: Anatomy of a Query: W5H Dimensions and FAR Patterns for Text-to-SQL Evaluation
- arxiv url: http://arxiv.org/abs/2605.05525v1
- Date: Thu, 07 May 2026 00:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.454016
- Title: Anatomy of a Query: W5H Dimensions and FAR Patterns for Text-to-SQL Evaluation
- Title(参考訳): クエリの解剖:テキストからSQL評価のためのW5H次元とFARパターン
- Authors: Vicki Stover Hertzberg, Eduardo Valverde, Joyce C. Ho,
- Abstract要約: 本稿では,FAR構造不変量とW5H次元フレームワークという,独立に動機づけられた2つのコンポーネントをベースとしたフレームワークであるQUESTを紹介する。
FARの適合性はすべてのドメインとスキーマタイプで普遍的であるが、W5H次元プロファイルはかなり異なる。
これらの結果は、構造化されたデータに対して真のマシン推論のために渡らなければならないフロンティアを特定する。
- 参考スコア(独自算出の注目度): 6.166318958045655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language interfaces to databases have gained popularity, yet the theoretical foundations for evaluating and designing these systems remain underdeveloped. We present QUEST (Query Understanding Evaluation through Semantic Translation), a framework resting on two independently motivated components: the FAR structural invariant, which holds that every well-formed query reduces to Filter, Aggregate, and Return operations; and the W5H dimensional framework, which holds that all filtering criteria map to six semantic dimensions (Who, What, Where, When, Why, and How). Validated across five text-to-SQL datasets (n = 120,464), FAR conformance is universal across all domains and schema types, while W5H dimensional profiles vary substantially. Healthcare queries are strongly concentrated in temporal (WHEN: 80.4%) and person-centric (WHO: 73.0%) dimensions far exceeding general-domain benchmarks, and causal (WHY) and mechanistic (HOW) reasoning are near-zero everywhere, with apparent HOW exceptions reflecting quantitative aggregation rather than genuine procedural reasoning. These results identify a frontier that must be crossed for genuine machine reasoning over structured data.
- Abstract(参考訳): データベースへの自然言語インタフェースは普及しているが、これらのシステムの評価と設計の理論的基盤は未開発のままである。
提案するQUEST(QUEST:Query Understanding Evaluation through Semantic Translation)は、2つの独立に動機づけられたコンポーネントをベースとしたフレームワークである。FAR構造不変量(FAR構造不変量)は、すべての十分に整形されたクエリがフィルタ、アグリゲート、リターン操作に還元されること,W5H次元フレームワークは、全てのフィルタリング基準を6つのセマンティックディメンション(Who, What, Where, Where, Why, How, How)にマップする。
5つのテキストからSQLまでのデータセット(n = 120,464)で検証され、FARの適合性はすべてのドメインとスキーマタイプで普遍的であるが、W5Hの次元プロファイルはかなり異なる。
医療クエリは時間的(WHEN: 80.4%)と人中心(WHO: 73.0%)に強く集中しており、因果的(WHY)と機械的(HOW)推論は至る所でほぼゼロであり、明らかにHOW例外は真の手続き的推論ではなく量的集約を反映している。
これらの結果は、構造化されたデータに対して真のマシン推論のために渡らなければならないフロンティアを特定する。
関連論文リスト
- Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - From Questions to Queries: An AI-powered Multi-Agent Framework for Spatial Text-to-SQL [0.4499833362998488]
単一エージェントアプローチは、空間的クエリのセマンティックおよび構文的複雑さにしばしば苦労する。
本稿では,自然言語質問を空間的クエリに正確に翻訳するためのマルチエージェントフレームワークを提案する。
我々は,非空間的KaggleDBQAベンチマークと包括的SpatialQAベンチマークを用いて,本システムの評価を行った。
論文 参考訳(メタデータ) (2025-10-23T22:58:17Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [91.01970848241075]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5 [0.0]
大規模言語モデル(LLM)は、テキスト・ツー・ジェネレーションによる構造化データクエリーのための自然言語インタフェースの実現を約束している。
本稿では,Exaone 3.5 を用いて LLM 生成したsql 出力の意味的精度を評価するためのFact-Consistency Evaluation Framework を提案する。
本稿では,LG Electronicsの内部BigQuery環境における実際の販売データから抽出した219の自然言語ビジネス質問からなるドメイン固有ベンチマークを構築した。
我々は,応答精度,実行成功率,意味的誤り率,非応答率を用いてモデル性能を評価する。
論文 参考訳(メタデータ) (2025-04-30T14:42:18Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。