論文の概要: MoMQ: Mixture-of-Experts Enhances Multi-Dialect Query Generation across Relational and Non-Relational Databases
- arxiv url: http://arxiv.org/abs/2410.18406v1
- Date: Thu, 24 Oct 2024 03:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:53.856042
- Title: MoMQ: Mixture-of-Experts Enhances Multi-Dialect Query Generation across Relational and Non-Relational Databases
- Title(参考訳): MoMQ:Mixture-of-Expertsはリレーショナルデータベースと非リレーショナルデータベースをまたいだマルチディレクトクエリ生成を実現する
- Authors: Zhisheng Lin, Yifu Liu, Zhiling Luo, Jinyang Gao, Yu Li,
- Abstract要約: クラウドサービスプロバイダは、複数の方言をサポートする統合データベースマネージャサービスを探している。
MoMQは、Mixture-of-Expertsベースの新しいマルチダイアレクトクエリ生成フレームワークである。
MoMQでは、それぞれの方言の専門家グループと、方言固有の知識を扱うための多レベルルーティング戦略を採用している。
- 参考スコア(独自算出の注目度): 15.59894560371822
- License:
- Abstract: The improvement in translating natural language to structured query language (SQL) can be attributed to the advancements in large language models (LLMs). Open-source LLMs, tailored for specific database dialects such as MySQL, have shown great performance. However, cloud service providers are looking for a unified database manager service (e.g., Cosmos DB from Azure, Amazon Aurora from AWS, Lindorm from AlibabaCloud) that can support multiple dialects. This requirement has led to the concept of multi-dialect query generation, which presents challenges to LLMs. These challenges include syntactic differences among dialects and imbalanced data distribution across multiple dialects. To tackle these challenges, we propose MoMQ, a novel Mixture-of-Experts-based multi-dialect query generation framework across both relational and non-relational databases. MoMQ employs a dialect expert group for each dialect and a multi-level routing strategy to handle dialect-specific knowledge, reducing interference during query generation. Additionally, a shared expert group is introduced to address data imbalance, facilitating the transfer of common knowledge from high-resource dialects to low-resource ones. Furthermore, we have developed a high-quality multi-dialect query generation benchmark that covers relational and non-relational databases such as MySQL, PostgreSQL, Cypher for Neo4j, and nGQL for NebulaGraph. Extensive experiments have shown that MoMQ performs effectively and robustly even in resource-imbalanced scenarios.
- Abstract(参考訳): 自然言語を構造化クエリ言語(SQL)に翻訳することの改善は、大規模言語モデル(LLM)の進歩に起因する。
MySQLのような特定のデータベース方言に適したオープンソースのLLMは、優れたパフォーマンスを示している。
しかしクラウドサービスプロバイダは、複数の方言をサポートする統合データベースマネージャサービス(AzureのCosmos DB、AWSのAmazon Aurora、AlibabaCloudのLindenmなど)を探している。
この要求はマルチダイアレクトクエリ生成という概念に結びつき、LLMに課題をもたらす。
これらの課題には、方言間の統語的差異や、複数の方言にまたがる不均衡なデータ分布が含まれる。
これらの課題に対処するため、我々は、リレーショナルデータベースと非リレーショナルデータベースの両方にまたがる、新しいMixture-of-Expertsベースのマルチダイアレクトクエリ生成フレームワークであるMoMQを提案する。
MoMQでは、方言の専門家グループと、方言固有の知識を扱うマルチレベルルーティング戦略を採用し、クエリ生成時の干渉を軽減する。
さらに、データ不均衡に対処するため、共有専門家グループが紹介され、高リソースの方言から低リソースの方言への共通の知識の移行を容易にする。
さらに,MySQLやPostgreSQL,Neo4j用のCypher,NebulaGraph用のnGQLといったリレーショナルデータベースや非リレーショナルデータベースをカバーする,高品質なマルチダイアレクトクエリ生成ベンチマークを開発した。
大規模な実験により、MoMQはリソース不均衡のシナリオでも効果的かつ堅牢に機能することが示された。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Text2SQL is Not Enough: Unifying AI and Databases with TAG [47.45480855418987]
Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
論文 参考訳(メタデータ) (2024-08-27T00:50:14Z) - MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge
Base and Database [86.03294330305097]
知識ベース(KB)とデータベース(DB)の両方で質問応答(QA)を統一した意味的要素を提案する。
フレームワークに不可欠な要素としてプリミティブ(KBのリレーションとエンティティ、テーブル名、列名、DBのセル値)を導入します。
生成元を利用して、異なる操作でトップランクプリミティブを変更・構成することで、最終的な論理形式を予測する。
論文 参考訳(メタデータ) (2022-11-09T19:33:27Z) - Translating synthetic natural language to database queries: a polyglot
deep learning framework [0.0]
Polyglotterは自然言語検索とデータベースクエリのマッピングをサポートする。
トレーニングのために手動で注釈付きデータを作成する必要はない。
我々のフレームワークは, 合成データベースと実データベースの両方で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-04-14T17:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。