論文の概要: AraSpider: Democratizing Arabic-to-SQL
- arxiv url: http://arxiv.org/abs/2402.07448v1
- Date: Mon, 12 Feb 2024 07:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:21:29.511078
- Title: AraSpider: Democratizing Arabic-to-SQL
- Title(参考訳): AraSpider: アラビア語からSQLへの民主化
- Authors: Ahmed Heakl, Youssef Mohamed, and Ahmed B. Zaky
- Abstract要約: 本研究では、アラビア語コミュニティにおける自然言語処理(Spider)の改善を目的とした、最初のアラビア語版のSpiderデータセットであるAraNLPについて述べる。
- 参考スコア(独自算出の注目度): 1.082634245716027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents AraSpider, the first Arabic version of the Spider
dataset, aimed at improving natural language processing (NLP) in the
Arabic-speaking community. Four multilingual translation models were tested for
their effectiveness in translating English to Arabic. Additionally, two models
were assessed for their ability to generate SQL queries from Arabic text. The
results showed that using back translation significantly improved the
performance of both ChatGPT 3.5 and SQLCoder models, which are considered top
performers on the Spider dataset. Notably, ChatGPT 3.5 demonstrated
high-quality translation, while SQLCoder excelled in text-to-SQL tasks. The
study underscores the importance of incorporating contextual schema and
employing back translation strategies to enhance model performance in Arabic
NLP tasks. Moreover, the provision of detailed methodologies for
reproducibility and translation of the dataset into other languages highlights
the research's commitment to promoting transparency and collaborative knowledge
sharing in the field. Overall, these contributions advance NLP research,
empower Arabic-speaking researchers, and enrich the global discourse on
language comprehension and database interrogation.
- Abstract(参考訳): 本研究では,アラビア語コミュニティにおける自然言語処理(NLP)の改善を目的とした,最初のアラビア語版であるAraSpiderについて述べる。
4つの多言語翻訳モデルを英語からアラビア語への翻訳の有効性について検討した。
さらに、アラビア文字からSQLクエリを生成する能力について、2つのモデルが評価された。
その結果,Siderデータセットの上位パフォーマーと考えられるChatGPT 3.5モデルとSQLCoderモデルの両方のパフォーマンスが大幅に向上した。
特にChatGPT 3.5は高品質な翻訳を示し、SQLCoderはテキストからSQLタスクに優れていた。
この研究は、アラビア語NLPタスクにおけるモデル性能を高めるために、文脈スキーマの導入と逆変換戦略を活用することの重要性を強調している。
さらに、データセットの再現性と他言語への翻訳に関する詳細な方法論の提供は、この分野における透明性と協調的な知識共有を促進する研究のコミットメントを強調している。
全体として、これらの貢献はnlp研究を前進させ、アラビア語研究者に力を与え、言語理解とデータベースの尋問に関するグローバルな談話を強化する。
関連論文リスト
- GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer [0.0]
多くの技術が英語に向けられている。
本研究では,入力質問が英語とは異なる言語で与えられた場合の翻訳 tosql について検討した。
我々は多言語BARTモデルを用いてRAT-+GAPシステムを変更した。
論文 参考訳(メタデータ) (2021-10-07T15:08:24Z) - AraBERT: Transformer-based Model for Arabic Language Understanding [0.0]
我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-02-28T22:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。