論文の概要: Translating Natural Language Queries to SQL Using the T5 Model
- arxiv url: http://arxiv.org/abs/2312.12414v1
- Date: Tue, 12 Dec 2023 18:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:29:21.241213
- Title: Translating Natural Language Queries to SQL Using the T5 Model
- Title(参考訳): T5モデルを用いた自然言語クエリのSQLへの変換
- Authors: Albert Wong, Lien Pham, Young Lee, Shek Chan, Razel Sadaya, Youry
Khmelevsky, Mathias Clement, Florence Wing Yau Cheng, Joe Mahony, Michael
Ferri
- Abstract要約: 本稿では,T5 モデルをベースとして,自然言語の tosql モデルの開発過程を示す。
2022年8月にオンライントランザクション処理システムとデータウェアハウス向けに開発されたこのモデルは、それぞれ73%と84%の正確なマッチング精度を持つ。
- 参考スコア(独自算出の注目度): 1.3805005020171541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the development process of a natural language to SQL
model using the T5 model as the basis. The models, developed in August 2022 for
an online transaction processing system and a data warehouse, have a 73\% and
84\% exact match accuracy respectively. These models, in conjunction with other
work completed in the research project, were implemented for several companies
and used successfully on a daily basis. The approach used in the model
development could be implemented in a similar fashion for other database
environments and with a more powerful pre-trained language model.
- Abstract(参考訳): 本稿では,T5モデルを基盤として,自然言語のSQLモデルへの展開過程について述べる。
2022年8月にオンライントランザクション処理システムとデータウェアハウス向けに開発されたモデルは、それぞれ73\%と84\%の正確なマッチング精度を持つ。
これらのモデルは、研究プロジェクトで完了した他の作業と合わせて、いくつかの会社で実施され、日常的にうまく利用された。
モデル開発で使用されるアプローチは、他のデータベース環境やより強力な事前訓練された言語モデルでも同様に実装できる。
関連論文リスト
- Software Model Evolution with Large Language Models: Experiments on Simulated, Public, and Industrial Datasets [6.585732390922304]
RAMCを用いたモデル補完のための大規模言語モデルの可能性を評価する。
大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった。
大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。
論文 参考訳(メタデータ) (2024-06-25T15:43:20Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Model Selection for Cross-Lingual Transfer [15.197350103781739]
本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
論文 参考訳(メタデータ) (2020-10-13T02:36:48Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。