Fugu-MT 論文翻訳(概要): Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries

論文の概要: Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries

arxiv url: http://arxiv.org/abs/2506.23071v2
Date: Thu, 06 Nov 2025 14:14:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-08 00:32:57.721233
Title: Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries
Title（参考訳）: Text2VectorSQL: ベクトル検索とSQLクエリのための統一インターフェースを目指す
Authors: Zhengren Wang, Dongwen Yao, Bozhou Li, Dongsheng Ma, Bo Li, Zhiyu Li, Feiyu Xiong, Bin Cui, Linpeng Tang, Wentao Zhang,
Abstract要約: 構造化されていないデータの拡散は、従来のデータベースインフラに根本的な課題をもたらす。 Text-to-BIRDは構造化データへのアクセスを民主化しているが、セマンティッククエリやマルチモーダルクエリを解釈することはできない。構造化データと非構造化データの両方をシームレスに問合せする統合自然言語を確立するための新しいタスクであるText2 Vectorを導入・形式化する。
参考スコア（独自算出の注目度）: 36.92547259037192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of unstructured data poses a fundamental challenge to traditional database interfaces. While Text-to-SQL has democratized access to structured data, it remains incapable of interpreting semantic or multi-modal queries. Concurrently, vector search has emerged as the de facto standard for querying unstructured data, but its integration with SQL-termed VectorSQL-still relies on manual query crafting and lacks standardized evaluation methodologies, creating a significant gap between its potential and practical application. To bridge this fundamental gap, we introduce and formalize Text2VectorSQL, a novel task to establish a unified natural language interface for seamlessly querying both structured and unstructured data. To catalyze research in this new domain, we present a comprehensive foundational ecosystem, including: (1) A scalable and robust pipeline for synthesizing high-quality Text-to-VectorSQL training data. (2) VectorSQLBench, the first large-scale, multi-faceted benchmark for this task, encompassing 12 distinct combinations across three database backends (SQLite, PostgreSQL, ClickHouse) and four data sources (BIRD, Spider, arXiv, Wikipedia). (3) Several novel evaluation metrics designed for more nuanced performance analysis. Extensive experiments not only confirm strong baseline performance with our trained models, but also reveal the recall degradation challenge: the integration of SQL filters with vector search can lead to more pronounced result omissions than in conventional filtered vector search. By defining the core task, delivering the essential data and evaluation infrastructure, and identifying key research challenges, our work lays the essential groundwork to build the next generation of unified and intelligent data interfaces. Our repository is available at https://github.com/OpenDCAI/Text2VectorSQL.
Abstract（参考訳）: 構造化されていないデータの拡散は、従来のデータベースインターフェースに根本的な課題をもたらす。 Text-to-SQLは構造化データへのアクセスを民主化しているが、セマンティッククエリやマルチモーダルクエリを解釈することはできない。同時に、ベクトル検索は非構造化データのクエリのデファクトスタンダードとして登場したが、SQLで終端したVectorSQL- Stillとの統合は、手動のクエリ作成に依存し、標準化された評価方法論が欠如しており、その可能性と実用性の間に大きなギャップを生じさせている。この基本的なギャップを埋めるために、構造化データと非構造化データの両方をシームレスにクエリする統合自然言語インターフェースを確立するための新しいタスクであるText2VectorSQLを導入し、形式化する。 1)高品質のText-to-VectorSQLトレーニングデータを合成するためのスケーラブルで堅牢なパイプライン。 2) このタスクのための最初の大規模で多面的なベンチマークであるVectorSQLBenchは、3つのデータベースバックエンド(SQLite、PostgreSQL、ClickHouse)と4つのデータソース(BIRD、Spider、arXiv、Wikipedia)に12の異なる組み合わせを含んでいる。 (3)より微妙な性能解析のために設計されたいくつかの新しい評価指標。大規模な実験によって、トレーニングされたモデルで強いベースライン性能を確認するだけでなく、リコール劣化の課題も明らかにしている。コアタスクの定義、重要なデータと評価インフラストラクチャの提供、重要な研究課題の特定によって、当社の作業は、次世代の統一されたインテリジェントなデータインターフェースを構築するための必須の土台を築きます。私たちのリポジトリはhttps://github.com/OpenDCAI/Text2VectorSQLで利用可能です。

関連論文リスト

Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL [20.156191782890797]
本稿では,自然言語質問,データベース,対話履歴を問う問合せを生成するConversational Text-to-Noタスクを提案する。そこで我々は,クエリ固有の推論機能を備えた小さな言語モデルを実現するフレームワークであるStage-MCTSを提案する。提案手法は最先端の大規模推論モデルより優れ,実行値の一致精度を最大7.93%向上させる。
論文参考訳（メタデータ） (2026-02-13T03:35:38Z)
APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL [39.76924093980244]
APEX-動詞化は、パラダイムを受動的翻訳からエージェント探索に移行するフレームワークである。提案フレームワークでは,実データにおける基底モデル推論に仮説検証ループを用いる。
論文参考訳（メタデータ） (2026-02-11T07:50:47Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
From Queries to Insights: Agentic LLM Pipelines for Spatio-Temporal Text-to-SQL [8.496933324334167]
本研究では,MistralをベースとしたRellama-sqlcoder-8bによるオーケストレーションにより,簡単なテキストからActまでのベースライン(Rellama-sqlcoder-8b)を提案する。ニューヨークと東京のチェックインで35の自然言語クエリを評価し,空間的・時間的マルチデータセット推論について検討した。このエージェントは、データセット 91.4% 対 28.6% よりもかなり精度が高く、地図によるユーザビリティを高め、自然言語の要約を構造化する。
論文参考訳（メタデータ） (2025-10-29T22:18:57Z)
STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases [27.66819120859756]
SARQAは,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットである。本稿では,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットであるSTARQAを紹介する。
論文参考訳（メタデータ） (2025-09-23T19:26:16Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
Datrics Text2SQL: A Framework for Natural Language to SQL Query Generation [0.0]
本稿では,構造化ドキュメンテーション,サンプルベース学習,ドメイン固有のルールを活用することで,正確なsqlクエリを生成するためのRAG(Retrieval-Augmented Generation)ベースのフレームワークを提案する。アーキテクチャ、トレーニング方法論、検索ロジックについて詳述し、システムがどのようにユーザ意図とデータベース構造の間のギャップを、専門知識を必要とせずに埋めるかを強調した。
論文参考訳（メタデータ） (2025-04-03T21:09:59Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文参考訳（メタデータ） (2024-09-25T09:02:48Z)
SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文参考訳（メタデータ） (2023-10-27T00:13:59Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-05-21T19:26:46Z)
Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T09:21:27Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
"What Do You Mean by That?" A Parser-Independent Interactive Approach for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。 PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2020-11-09T02:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。