論文の概要: MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing
- arxiv url: http://arxiv.org/abs/2212.13492v1
- Date: Tue, 27 Dec 2022 13:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:20:38.039280
- Title: MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing
- Title(参考訳): MultiSpider: マルチ言語テキストからSQLへのセマンティックパーシングのベンチマークを目指す
- Authors: Longxu Dou, Yan Gao, Mingyang Pan, Dingzirui Wang, Wanxiang Che,
Dechen Zhan, Jian-Guang Lou
- Abstract要約: 英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
- 参考スコア(独自算出の注目度): 48.216386761482525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL semantic parsing is an important NLP task, which greatly
facilitates the interaction between users and the database and becomes the key
component in many human-computer interaction systems. Much recent progress in
text-to-SQL has been driven by large-scale datasets, but most of them are
centered on English. In this work, we present MultiSpider, the largest
multilingual text-to-SQL dataset which covers seven languages (English, German,
French, Spanish, Japanese, Chinese, and Vietnamese). Upon MultiSpider, we
further identify the lexical and structural challenges of text-to-SQL (caused
by specific language properties and dialect sayings) and their intensity across
different languages. Experimental results under three typical settings
(zero-shot, monolingual and multilingual) reveal a 6.1% absolute drop in
accuracy in non-English languages. Qualitative and quantitative analyses are
conducted to understand the reason for the performance drop of each language.
Besides the dataset, we also propose a simple schema augmentation framework
SAVe (Schema-Augmentation-with-Verification), which significantly boosts the
overall performance by about 1.8% and closes the 29.5% performance gap across
languages.
- Abstract(参考訳): テキストからSQLへのセマンティックパーシングは重要なNLPタスクであり、ユーザとデータベース間のインタラクションを大幅に促進し、多くのコンピュータインタラクションシステムにおいて重要なコンポーネントとなる。
テキストからsqlへの最近の進歩は、大規模なデータセットによって推進されているが、そのほとんどは英語を中心にしている。
本研究では,英語,ドイツ語,フランス語,スペイン語,日本語,中国語,ベトナム語)をカバーする多言語SQLデータセットとして最大であるMultiSpiderを提案する。
マルチスピーダーでは、テキスト対sqlの語彙的および構造的課題(特定の言語特性と方言表現によって引き起こされる)と、異なる言語間の強度をさらに識別する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)での実験結果では、英語以外の言語では6.1%の精度低下が見られた。
各言語のパフォーマンス低下の原因を理解するために,定性的,定量的な分析を行った。
データセットに加えて、単純なスキーマ拡張フレームワークであるSAVe(Schema-Augmentation-with-Verification)も提案しています。
関連論文リスト
- StatBot.Swiss: Bilingual Open Data Exploration in Natural Language [5.149617340100317]
Text-to-SwissシステムにおけるLarge Language Models (LLM)による改善の可能性は、主にモノリンガルな英語データセットに基づいて評価される。
我々は、現実世界のアプリケーションに基づいてテキスト・ツー・スイスシステムを評価するための最初のベンチマークデータセットであるStatBotをリリースした。
論文 参考訳(メタデータ) (2024-06-05T12:03:19Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。