論文の概要: MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query Translation
- arxiv url: http://arxiv.org/abs/2502.11022v1
- Date: Sun, 16 Feb 2025 07:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:13.741155
- Title: MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query Translation
- Title(参考訳): MultiTEND: 自然言語からNoSQLクエリへの翻訳のための多言語ベンチマーク
- Authors: Zhiqian Qin, Yuanfeng Song, Jinwei Lu, Yuanwei Song, Shuaimin Li, Chen Jason Zhang,
- Abstract要約: 本稿では,自然言語によるクエリ生成のためのマルチ言語ベンチマークとして,MultiTENDを紹介する。
自然言語を様々な言語構造にまたがるクエリに翻訳する際の課題を分析する。
並列リンクプロセスを通じてクエリ生成ギャップに多言語入力をブリッジする新しいフレームワークであるMultiLinkを紹介する。
- 参考スコア(独自算出の注目度): 6.142748564599452
- License:
- Abstract: Natural language interfaces for NoSQL databases are increasingly vital in the big data era, enabling users to interact with complex, unstructured data without deep technical expertise. However, most recent advancements focus on English, leaving a gap for multilingual support. This paper introduces MultiTEND, the first and largest multilingual benchmark for natural language to NoSQL query generation, covering six languages: English, German, French, Russian, Japanese and Mandarin Chinese. Using MultiTEND, we analyze challenges in translating natural language to NoSQL queries across diverse linguistic structures, including lexical and syntactic differences. Experiments show that performance accuracy in both English and non-English settings remains relatively low, with a 4%-6% gap across scenarios like fine-tuned SLM, zero-shot LLM, and RAG for LLM. To address the aforementioned challenges, we introduce MultiLink, a novel framework that bridges the multilingual input to NoSQL query generation gap through a Parallel Linking Process. It breaks down the task into multiple steps, integrating parallel multilingual processing, Chain-of-Thought (CoT) reasoning, and Retrieval-Augmented Generation (RAG) to tackle lexical and structural challenges inherent in multilingual NoSQL generation. MultiLink shows enhancements in all metrics for every language against the top baseline, boosting execution accuracy by about 15% for English and averaging a 10% improvement for non-English languages.
- Abstract(参考訳): NoSQLデータベースの自然言語インターフェースは、ビッグデータ時代においてますます重要になっている。
しかし、最近の進歩は英語に重点を置いており、多言語サポートのギャップを残している。
本稿では、自然言語からNoSQLクエリ生成への最初の、かつ最大のマルチ言語ベンチマークであるMultiTENDを紹介し、英語、ドイツ語、フランス語、ロシア語、日本語、中国語の6言語をカバーする。
MultiTENDを用いて、語彙的および構文的差異を含む様々な言語構造にわたる自然言語をNoSQLクエリに翻訳する際の課題を分析する。
実験の結果、英語と非英語の両方での精度は比較的低く、微調整のSLM、ゼロショットのLLM、LLMのRAGといったシナリオ間で4%-6%の差があることがわかった。
上記の課題に対処するために、並列リンクプロセスを通じて、多言語入力をNoSQLクエリ生成ギャップにブリッジする新しいフレームワークであるMultiLinkを紹介します。
タスクを複数のステップに分割し、並列多言語処理、Chain-of-Thought(CoT)推論、Retrieval-Augmented Generation(RAG)を統合して、多言語NoSQL生成に固有の語彙的および構造的課題に対処する。
MultiLinkは、トップベースラインに対するすべての言語のメトリクスの強化を示し、実行精度を英語で約15%向上し、非英語言語で平均10%改善している。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。