論文の概要: FloodSQL-Bench: A Retrieval-Augmented Benchmark for Geospatially-Grounded Text-to-SQL
- arxiv url: http://arxiv.org/abs/2512.12084v1
- Date: Fri, 12 Dec 2025 23:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.105886
- Title: FloodSQL-Bench: A Retrieval-Augmented Benchmark for Geospatially-Grounded Text-to-SQL
- Title(参考訳): FloodSQL-Bench:Geospatially-Grounded Text-to-SQLのための検索強化ベンチマーク
- Authors: Hanzhou Liu, Kai Yin, Zhitong Chen, Chenyue Liu, Ali Mostafavi,
- Abstract要約: FLOOD-BENCHは、キーベース、空間、ハイブリッド結合を通じて異種データセットを統合する、洪水管理ドメインのベンチマークである。
このベンチマークは、ソーシャル、インフラ、およびハザードデータレイヤを組み合わせることで、現実的な洪水関連情報をキャプチャする。
- 参考スコア(独自算出の注目度): 4.973502845481286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Text-to-SQL benchmarks primarily focus on single-table queries or limited joins in general-purpose domains, and thus fail to reflect the complexity of domain-specific, multi-table and geospatial reasoning, To address this limitation, we introduce FLOODSQL-BENCH, a geospatially grounded benchmark for the flood management domain that integrates heterogeneous datasets through key-based, spatial, and hybrid joins. The benchmark captures realistic flood-related information needs by combining social, infrastructural, and hazard data layers. We systematically evaluate recent large language models with the same retrieval-augmented generation settings and measure their performance across difficulty tiers. By providing a unified, open benchmark grounded in real-world disaster management data, FLOODSQL-BENCH establishes a practical testbed for advancing Text-to-SQL research in high-stakes application domains.
- Abstract(参考訳): 既存のText-to-SQLベンチマークは、主に汎用ドメインにおける単一テーブルクエリや限定結合に焦点を当てており、ドメイン固有の、マルチテーブル、地理空間的推論の複雑さを反映していない。
このベンチマークは、ソーシャル、インフラ、およびハザードデータレイヤを組み合わせることで、現実的な洪水関連情報をキャプチャする。
提案手法は,検索強化された生成設定が同じである最近の大規模言語モデルを体系的に評価し,その性能を難易度で測定する。
FLOODSQL-BENCHは、現実世界の災害管理データに基づいて、統一されたオープンなベンチマークを提供することによって、高度なアプリケーションドメインでテキストからSQLまでの研究を進めるための実践的なテストベッドを確立する。
関連論文リスト
- Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries [12.523407991161315]
提案するGeo-Evalは,PostGIS生成のためのエンドツーエンド自動評価フレームワークである。
また、継続的テストとグローバル比較のための公開Geo-Evalのリーダボードプラットフォームもリリースしています。
論文 参考訳(メタデータ) (2025-09-28T04:50:48Z) - Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries [36.92547259037192]
構造化されていないデータの拡散は、従来のデータベースインフラに根本的な課題をもたらす。
Text-to-BIRDは構造化データへのアクセスを民主化しているが、セマンティッククエリやマルチモーダルクエリを解釈することはできない。
構造化データと非構造化データの両方をシームレスに問合せする統合自然言語を確立するための新しいタスクであるText2 Vectorを導入・形式化する。
論文 参考訳(メタデータ) (2025-06-29T03:17:42Z) - LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO [0.6374763930914525]
そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
論文 参考訳(メタデータ) (2025-06-11T04:04:13Z) - WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos [48.88393315169039]
協調学習(CL)技術により、複数のパーティが生データを共有せずにモデルを共同でトレーニングできる。
現在のCLベンチマークとアルゴリズムは、主に、分離、アライメント、結合可能なデータベースの仮定の下で学習ステップを目標としています。
我々は1700万の重み付きエッジでリンクされた10万の現実世界のリレーショナルデータベースから構築された大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-22T13:07:06Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。