論文の概要: Wav2SQL: Direct Generalizable Speech-To-SQL Parsing
- arxiv url: http://arxiv.org/abs/2305.12552v1
- Date: Sun, 21 May 2023 19:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:47:38.999306
- Title: Wav2SQL: Direct Generalizable Speech-To-SQL Parsing
- Title(参考訳): wav2sql: 音声からsqlへの直接解析
- Authors: Huadai Liu, Rongjie Huang, Jinzheng He, Gang Sun, Ran Shen, Xize
Cheng, Zhou Zhao
- Abstract要約: Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 55.10009651476589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-SQL (S2SQL) aims to convert spoken questions into SQL queries given
relational databases, which has been traditionally implemented in a cascaded
manner while facing the following challenges: 1) model training is faced with
the major issue of data scarcity, where limited parallel data is available; and
2) the systems should be robust enough to handle diverse out-of-domain speech
samples that differ from the source data. In this work, we propose the first
direct speech-to-SQL parsing model Wav2SQL which avoids error compounding
across cascaded systems. Specifically, 1) to accelerate speech-driven SQL
parsing research in the community, we release a large-scale and multi-speaker
dataset MASpider; 2) leveraging the recent progress in the large-scale
pre-training, we show that it alleviates the data scarcity issue and allow for
direct speech-to-SQL parsing; and 3) we include the speech re-programming and
gradient reversal classifier techniques to reduce acoustic variance and learned
style-agnostic representation, improving generalization to unseen out-of-domain
custom data. Experimental results demonstrate that Wav2SQL avoids error
compounding and achieves state-of-the-art results by up to 2.5\% accuracy
improvement over the baseline.
- Abstract(参考訳): speech-to-sql (s2sql) は、リレーショナル・データベースに与えられた音声質問をsqlクエリに変換することを目的としている。
1) モデルトレーニングは、限られた並列データが利用可能なデータ不足の大きな問題に直面する。
2) システムは、ソースデータと異なる多様なドメイン外の音声サンプルを扱うのに十分な堅牢性を持つべきである。
本研究では,ケースドシステム間のエラー混在を回避するために,最初の直接音声-SQL解析モデルWav2SQLを提案する。
具体的には
1) コミュニティにおける音声によるSQL解析の研究を加速するために,大規模マルチ話者データセットMASpiderをリリースする。
2) 大規模事前学習の最近の進歩を活かして, データの不足を緩和し, 音声からsqlへの直接解析を可能にすることを示す。
3)音声再プログラミングと勾配反転分類法を用いて音響分散と学習スタイル非依存表現を低減し,ドメイン外カスタムデータに対する一般化を改善した。
実験の結果、wav2sqlはエラーの複合化を回避し、ベースラインに対する最大2.5%の精度向上によって最先端の結果を得ることができた。
関連論文リスト
- SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。
本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文 参考訳(メタデータ) (2024-08-22T20:50:48Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural
Language Question [18.40290951253122]
音声による入力は、スマートフォンやタブレットの人気により、大きな勢いを増している。
本稿では,構造化データデータベースを問合せするための,より効率的な音声インタフェースの設計について検討する。
我々は,人間の音声を直接クエリーに変換するために,SpeechNetという新しいエンドツーエンドニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-04T15:38:36Z) - Decoupled Dialogue Modeling and Semantic Parsing for Multi-Turn
Text-to-SQL [20.92732277474218]
本稿では,対話コンテキストの完了をまず発話書き直しモデルで明示的に解決する,疎結合なテキスト・ツー・エンド・フレームワークを提案する。
データ疎性問題に対処する発話書き直しモデルにも,デュアルラーニング手法が提案されている。
わずか数回の書き直しケースで、分離されたメソッドは、SParCとCo両方のデータセットでリリースされた最先端のエンドツーエンドモデルを上回っます。
論文 参考訳(メタデータ) (2021-06-04T06:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。