論文の概要: Multilingual Text-to-SQL: Benchmarking the Limits of Language Models with Collaborative Language Agents
- arxiv url: http://arxiv.org/abs/2509.24405v1
- Date: Mon, 29 Sep 2025 07:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.832311
- Title: Multilingual Text-to-SQL: Benchmarking the Limits of Language Models with Collaborative Language Agents
- Title(参考訳): Multilingual Text-to-SQL:コラボレーション型言語エージェントによる言語モデルの限界のベンチマーク
- Authors: Khanh Trinh Pham, Thu Huong Nguyen, Jun Jo, Quoc Viet Hung Nguyen, Thanh Tam Nguyen,
- Abstract要約: Text-to-Spiderはデータベースへの自然なアクセスを可能にするが、ほとんどのベンチマークは英語のみであり、多言語による進捗を制限する。
我々はMultiSpider 2.0を導入し、スパイダー2.0を8言語(英語、ドイツ語、フランス語、スペイン語、ポルトガル語、日本語、中国語、ベトナム語)に拡張する。
このベンチマークでは、最先端のLLMは本質的な推論に依存する場合、4%の精度でしか実行できないが、MultiSpider 1.0では60%に留まった。
- 参考スコア(独自算出の注目度): 12.06248425636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL enables natural access to databases, yet most benchmarks are English-only, limiting multilingual progress. We introduce MultiSpider 2.0, extending Spider 2.0 to eight languages (English, German, French, Spanish, Portuguese, Japanese, Chinese, Vietnamese). It preserves Spider 2.0's structural difficulty while adding linguistic and dialectal variability, demanding deeper reasoning for complex SQL. On this benchmark, state-of-the-art LLMs (such as DeepSeek-R1 and OpenAI o1) reach only 4\% execution accuracy when relying on intrinsic reasoning, versus 60\% on MultiSpider 1.0. Therefore, we provide a collaboration-driven language agents baseline that iteratively refines queries, improving accuracy to 15\%. These results reveal a substantial multilingual gap and motivate methods that are robust across languages and ready for real-world enterprise deployment. Our benchmark is available at https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL.
- Abstract(参考訳): Text-to-SQLはデータベースへの自然なアクセスを可能にするが、ほとんどのベンチマークは英語のみであり、多言語による進捗を制限する。
我々は,MultiSpider 2.0を導入し,スパイダー2.0を8言語(英語,ドイツ語,フランス語,スペイン語,ポルトガル語,日本語,中国語,ベトナム語)に拡張した。
これは、言語的および方言的な変数を追加しながら、Spider 2.0の構造上の難しさを保ち、複雑なSQLのより深い推論を要求する。
このベンチマークでは、最先端のLCM(DeepSeek-R1やOpenAI o1)は、本質的な推論に依存する場合、実行精度が4倍、MultiSpider 1.0では60倍にしか達しない。
そこで我々は,クエリを反復的に洗練し,精度を15倍に向上させる,協調駆動型言語エージェントのベースラインを提供する。
これらの結果は、言語間で堅牢で、実世界のエンタープライズ展開の準備が整った、相当なマルチリンガルギャップとモチベーションメソッドを明らかにします。
私たちのベンチマークはhttps://github.com/phkhanhtrinh23/Multilingual_Text_to_SQLで公開されています。
関連論文リスト
- Text2Cypher Across Languages: Evaluating and Finetuning LLMs [0.17188280334580197]
本論文では,複数の言語を対象としたText2Cypherタスクにおける基礎的および微調整LLMの性能について検討する。
英語の質問をスペイン語とトルコ語に翻訳することで、多言語データセットを作成し、リリースします。
標準化されたプロンプトとメトリクスを用いて、いくつかの基礎モデルを評価し、一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-06-26T16:31:10Z) - MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query Translation [6.142748564599452]
本稿では,自然言語によるクエリ生成のためのマルチ言語ベンチマークとして,MultiTENDを紹介する。
自然言語を様々な言語構造にまたがるクエリに翻訳する際の課題を分析する。
並列リンクプロセスを通じてクエリ生成ギャップに多言語入力をブリッジする新しいフレームワークであるMultiLinkを紹介する。
論文 参考訳(メタデータ) (2025-02-16T07:12:47Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - Ar-Spider: Text-to-SQL in Arabic [11.463438573648297]
本稿ではアラビア語による最初のテキスト・ドメイン間データセットであるAr-Spider 1を紹介する。
言語特有の性質のため、言語学と構造学という2つの大きな課題に遭遇している。
本稿では,S2が1.52%,LGEが1.06%,アラビア語と英語のギャップが7.73%に拡大する類似性関係(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:11:17Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。