論文の概要: mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer
- arxiv url: http://arxiv.org/abs/2110.03546v1
- Date: Thu, 7 Oct 2021 15:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:10:29.639525
- Title: mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer
- Title(参考訳): mRAT-SQL+GAP:ポルトガルのテキストからSQLへの変換器
- Authors: Marcelo Archanjo Jos\'e, Fabio Gagliardi Cozman
- Abstract要約: 多くの技術が英語に向けられている。
本研究では,入力質問が英語とは異なる言語で与えられた場合の翻訳 tosql について検討した。
我々は多言語BARTモデルを用いてRAT-+GAPシステムを変更した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The translation of natural language questions to SQL queries has attracted
growing attention, in particular in connection with transformers and similar
language models. A large number of techniques are geared towards the English
language; in this work, we thus investigated translation to SQL when input
questions are given in the Portuguese language. To do so, we properly adapted
state-of-the-art tools and resources. We changed the RAT-SQL+GAP system by
relying on a multilingual BART model (we report tests with other language
models), and we produced a translated version of the Spider dataset. Our
experiments expose interesting phenomena that arise when non-English languages
are targeted; in particular, it is better to train with original and translated
training datasets together, even if a single target language is desired. This
multilingual BART model fine-tuned with a double-size training dataset (English
and Portuguese) achieved 83% of the baseline, making inferences for the
Portuguese test dataset. This investigation can help other researchers to
produce results in Machine Learning in a language different from English. Our
multilingual ready version of RAT-SQL+GAP and the data are available,
open-sourced as mRAT-SQL+GAP at: https://github.com/C4AI/gap-text2sql
- Abstract(参考訳): SQLクエリへの自然言語質問の翻訳は、特にトランスフォーマーや同様の言語モデルに関連して、注目を集めている。
そこで本研究では,ポルトガル語で入力された質問をSQLに翻訳する手法について検討した。
そのため、最先端のツールやリソースを適切に適用しました。
RAT-SQL+GAP システムを多言語 BART モデルに頼って変更し(他の言語モデルとのテストを報告する)、Spider データセットの翻訳版を作成しました。
実験の結果,英語以外の言語を対象とする場合に発生する興味深い現象が明らかとなった。特に,1つのターゲット言語が望まれても,オリジナルおよび翻訳されたトレーニングデータセットを併用したトレーニングが望ましい。
この多言語BARTモデルは、ダブルサイズトレーニングデータセット(英語とポルトガル語)で微調整され、ベースラインの83%を達成した。
この調査は、他の研究者が英語とは異なる言語で機械学習の結果を生み出すのに役立つ。
RAT-SQL+GAPとそのデータは、https://github.com/C4AI/gap-text2sqlで、mRAT-SQL+GAPとしてオープンソースとして公開されています。
関連論文リスト
- Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - StatBot.Swiss: Bilingual Open Data Exploration in Natural Language [5.149617340100317]
Text-to-SwissシステムにおけるLarge Language Models (LLM)による改善の可能性は、主にモノリンガルな英語データセットに基づいて評価される。
我々は、現実世界のアプリケーションに基づいてテキスト・ツー・スイスシステムを評価するための最初のベンチマークデータセットであるStatBotをリリースした。
論文 参考訳(メタデータ) (2024-06-05T12:03:19Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - A Multilingual Translator to SQL with Database Schema Pruning to Improve
Self-Attention [0.0]
最大512個の入力トークンを持つ変換器で長文シーケンスを処理できる技術を提案する。
さらに,データを拡張したスパイダーデータセットを4つの言語で同時に調整したmT5大モデルを用いて多言語アプローチを行った。
論文 参考訳(メタデータ) (2023-06-25T14:28:12Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。