論文の概要: Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural
Language Question
- arxiv url: http://arxiv.org/abs/2201.01209v1
- Date: Tue, 4 Jan 2022 15:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:42:20.180925
- Title: Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural
Language Question
- Title(参考訳): Speech-to-SQL: 自然言語質問から音声駆動型SQLクエリ生成を目指す
- Authors: Yuanfeng Song, Raymond Chi-Wing Wong, Xuefang Zhao, Di Jiang
- Abstract要約: 音声による入力は、スマートフォンやタブレットの人気により、大きな勢いを増している。
本稿では,構造化データデータベースを問合せするための,より効率的な音声インタフェースの設計について検討する。
我々は,人間の音声を直接クエリーに変換するために,SpeechNetという新しいエンドツーエンドニューラルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.40290951253122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based inputs have been gaining significant momentum with the
popularity of smartphones and tablets in our daily lives, since voice is the
most easiest and efficient way for human-computer interaction. This paper works
towards designing more effective speech-based interfaces to query the
structured data in relational databases. We first identify a new task named
Speech-to-SQL, which aims to understand the information conveyed by human
speech and directly translate it into structured query language (SQL)
statements. A naive solution to this problem can work in a cascaded manner,
that is, an automatic speech recognition (ASR) component followed by a
text-to-SQL component. However, it requires a high-quality ASR system and also
suffers from the error compounding problem between the two components,
resulting in limited performance. To handle these challenges, we further
propose a novel end-to-end neural architecture named SpeechSQLNet to directly
translate human speech into SQL queries without an external ASR step.
SpeechSQLNet has the advantage of making full use of the rich linguistic
information presented in speech. To the best of our knowledge, this is the
first attempt to directly synthesize SQL based on arbitrary natural language
questions, rather than a natural language-based version of SQL or its variants
with a limited SQL grammar. To validate the effectiveness of the proposed
problem and model, we further construct a dataset named SpeechQL, by
piggybacking the widely-used text-to-SQL datasets. Extensive experimental
evaluations on this dataset show that SpeechSQLNet can directly synthesize
high-quality SQL queries from human speech, outperforming various competitive
counterparts as well as the cascaded methods in terms of exact match
accuracies.
- Abstract(参考訳): 音声による入力は、人間とコンピュータの対話において最も簡単かつ効率的な方法であるため、私たちの日常生活におけるスマートフォンやタブレットの普及に伴い、大きな勢いを増している。
本稿では,関係データベースの構造化データを検索するための,より効率的な音声インタフェースの設計について検討する。
まず、人間の発話によって伝達される情報を理解し、それを構造化クエリ言語(sql)文に直接翻訳することを目的とした、 speech-to-sqlという新しいタスクを特定した。
この問題に対するナイーブな解決策は、逐次的な方法、すなわち自動音声認識(asr)コンポーネントとテキストからsqlコンポーネントで動作します。
しかし、高品質なASRシステムが必要であり、2つのコンポーネント間のエラー複合問題に悩まされ、性能が制限される。
これらの課題に対処するために,我々はさらに,人間の発話を外部asrステップを使わずにsqlクエリに直接翻訳する, speechsqlnet という新しいエンドツーエンドのニューラルネットワークアーキテクチャを提案する。
speechsqlnetは、スピーチで提示される豊かな言語情報をフル活用する利点がある。
私たちの知る限りでは、これはSQLの自然言語ベースのバージョンや限定的なSQL文法による変種ではなく、任意の自然言語質問に基づいてSQLを直接合成する最初の試みです。
提案した問題とモデルの有効性を検証するため,広く使用されているテキストからSQLへのデータセットをピギーバックすることで,SpeechQLというデータセットをさらに構築する。
このデータセットの大規模な実験的評価により、SpeechSQLNetは人間の音声から直接高品質なSQLクエリを合成でき、正確な一致精度の点で、様々な競合相手とカスケードされた手法を上回ります。
関連論文リスト
- Decoupling SQL Query Hardness Parsing for Text-to-SQL [2.30258928355895]
本稿では,問合せ難易度解析の分離に基づくテキスト対結合のための革新的なフレームワークを提案する。
このフレームワークは、質問やスキーマを分析することで、クエリの難しさに基づいて、Text-to-coupleタスクを分離し、マルチハーネスタスクを単一ハーネスチャレンジに単純化する。
論文 参考訳(メタデータ) (2023-12-11T07:20:46Z) - SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。
我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文 参考訳(メタデータ) (2023-10-27T00:13:59Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。