論文の概要: XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing
- arxiv url: http://arxiv.org/abs/2210.13693v1
- Date: Tue, 25 Oct 2022 01:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:30:27.632989
- Title: XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing
- Title(参考訳): XRICL: 言語間テキスト-SQL間セマンティックパーシングのための言語間検索強化型インコンテキスト学習
- Authors: Peng Shi, Rui Zhang, He Bai, and Jimmy Lin
- Abstract要約: 大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
- 参考スコア(独自算出の注目度): 70.40401197026925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning using large language models has recently shown surprising
results for semantic parsing tasks such as Text-to-SQL translation. Prompting
GPT-3 or Codex using several examples of question-SQL pairs can produce
excellent results, comparable to state-of-the-art finetuning-based models.
However, existing work primarily focuses on English datasets, and it is unknown
whether large language models can serve as competitive semantic parsers for
other languages. To bridge this gap, our work focuses on cross-lingual
Text-to-SQL semantic parsing for translating non-English utterances into SQL
queries based on an English schema. We consider a zero-shot transfer learning
setting with the assumption that we do not have any labeled examples in the
target language (but have annotated examples in English). This work introduces
the XRICL framework, which learns to retrieve relevant English exemplars for a
given query to construct prompts. We also include global translation exemplars
for a target language to facilitate the translation process for large language
models. To systematically evaluate our model, we construct two new benchmark
datasets, XSpider and XKaggle-dbqa, which include questions in Chinese,
Vietnamese, Farsi, and Hindi. Our experiments show that XRICL effectively
leverages large pre-trained language models to outperform existing baselines.
Data and code are publicly available at https://github.com/Impavidity/XRICL.
- Abstract(参考訳): 大規模言語モデルを用いたインコンテキスト学習は、テキストからSQLへの変換のようなセマンティック解析タスクにおいて驚くべき結果を示している。
GPT-3 や Codex をいくつかの質問-SQL ペアの例として使用すれば,最先端のファインタニングモデルに匹敵する優れた結果が得られる。
しかし、既存の研究は主に英語のデータセットに焦点を当てており、大きな言語モデルが他の言語の競合セマンティックパーサーとして機能するかどうかは不明である。
このギャップを埋めるために、我々の研究は、英語スキーマに基づいた非英語の発話をSQLクエリに変換するための言語間テキストからSQLへのセマンティックパーシングに焦点を当てている。
我々は,対象言語にラベル付き例が存在しないことを前提として,ゼロショット転送学習の設定を検討する(ただし,アノテートされた例を英語で持つ)。
この研究はXRICLフレームワークを導入し、与えられたクエリに対して関連する英語の例を検索してプロンプトを構築する。
大規模言語モデルの翻訳プロセスを容易にするために,対象言語のためのグローバル翻訳例も含む。
xspider と xkaggle-dbqa という2つのベンチマークデータセットを構築し,中国語,ベトナム語,ファルシ語,ヒンディー語に疑問を投げかけた。
実験の結果,XRICLは既存のベースラインを上回り,大規模な事前学習言語モデルを効果的に活用できることがわかった。
データとコードはhttps://github.com/Impavidity/XRICLで公開されている。
関連論文リスト
- MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。