論文の概要: Domain Specific Question to SQL Conversion with Embedded Data Balancing Technique
- arxiv url: http://arxiv.org/abs/2504.08753v1
- Date: Fri, 28 Mar 2025 08:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 06:04:30.879923
- Title: Domain Specific Question to SQL Conversion with Embedded Data Balancing Technique
- Title(参考訳): 組込みデータバランシング技術によるSQL変換に関するドメイン固有質問
- Authors: Jyothi, T. Satyanarayana Murthy,
- Abstract要約: 本稿では,構造化クエリ言語モデルの精度向上のための2つの補間手法を提案する。
提案手法は、Wikiデータセットでテストされたアートモデルの状態と比較して、モデル性能の精度が10.98パーセント向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rise of deep learning in natural language processing has fostered the creation of text to structured query language models composed of an encoder and a decoder. Researchers have experimented with various intermediate processing like schema linking, table type aware, value extract. To generate accurate SQL results for the user question. However error analysis performed on the failed cases on these systems shows, 29 percentage of the errors would be because the system was unable to understand the values expressed by the user in their question. This challenge affects the generation of accurate SQL queries, especially when dealing with domain-specific terms and specific value conditions, where traditional methods struggle to maintain consistency and precision. To overcome these obstacles, proposed two intermediations like implementing data balancing technique and over sampling domain-specific queries which would refine the model architecture to enhance value recognition and fine tuning the model for domain-specific questions. This proposed solution achieved 10.98 percentage improvement in accuracy of the model performance compared to the state of the art model tested on WikiSQL dataset. to convert the user question accurately to SQL queries. Applying oversampling technique on the domain-specific questions shown a significant improvement as compared with traditional approaches.
- Abstract(参考訳): 自然言語処理におけるディープラーニングの台頭により、エンコーダとデコーダで構成される構造化クエリ言語モデルへのテキスト作成が促進された。
研究者は、スキーマリンク、テーブルタイプ認識、値抽出など、さまざまな中間処理を実験している。
ユーザの質問に対して正確なSQL結果を生成する。
しかし, エラー解析の結果, エラーの29パーセントは, ユーザが提示した値の理解が困難であったためであることがわかった。
この課題は、特にドメイン固有の用語や、従来のメソッドが一貫性と精度を維持するのに苦労している特定の値条件を扱う場合、正確なSQLクエリの生成に影響を与える。
これらの障害を克服するため、データバランシング手法の実装やドメイン固有のクエリのオーバーサンプリングという2つの仲介手法を提案し、モデルアーキテクチャを洗練して値認識を強化し、ドメイン固有の問題に対してモデルを微調整する。
提案手法は、WikiSQLデータセットでテストされた最先端モデルと比較して、モデル性能の精度が10.98パーセント向上した。
ユーザの質問をSQLクエリに正確に変換する。
ドメイン固有の質問に対するオーバーサンプリング技術の適用は、従来のアプローチに比べて大幅に改善された。
関連論文リスト
- Confidence Estimation for Error Detection in Text-to-SQL Systems [5.636160825241556]
本研究では,選択型分類器のテキスト・ツー・ラーニングシステムへの統合について検討する。
エンコーダ-デコーダ T5 は,テキスト内 GPT 4 やデコーダのみの Llama 3 よりもキャリブレーションが優れていることを示す。
誤り検出の観点では、高い確率の選択的分類器は、不正なクエリ生成ではなく、無関係な質問に関連する誤りを検出する。
論文 参考訳(メタデータ) (2025-01-16T13:23:07Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Context-Aware SQL Error Correction Using Few-Shot Learning -- A Novel Approach Based on NLQ, Error, and SQL Similarity [0.0]
本稿では,誤り訂正 insql 生成のための新しい数ショット学習手法を提案する。
与えられた自然言語質問(NLQ)に対して最も適した少数ショット誤り訂正例を選択することにより、生成されたクエリの精度を向上させる。
オープンソースデータセットを用いた実験では、単純な誤り訂正法により、誤り訂正のない修正エラーが39.2%増加し、10%増加した。
論文 参考訳(メタデータ) (2024-10-11T18:22:08Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - ProbGate at EHRSQL 2024: Enhancing SQL Query Generation Accuracy through Probabilistic Threshold Filtering and Error Handling [0.0]
本稿では, エントロピーに基づく不確定な結果の抽出とフィルタリングを行う手法を提案する。
我々は,提案手法が解答不能な質問をフィルタリングできることを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-25T14:55:07Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Controllable Data Augmentation for Context-Dependent Text-to-SQL [46.11511797999039]
本稿では,対話型質問と対応するsql結果を生成するConDAを紹介する。
また,グラウンドモデルによるデータ品質保証のためのフィルタ手法を提案する。
その結果,ConDAが生成したデータは高品質であることが判明した。
論文 参考訳(メタデータ) (2023-04-27T01:00:10Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。