論文の概要: Text2Cypher Across Languages: Evaluating Foundational Models Beyond English
- arxiv url: http://arxiv.org/abs/2506.21445v1
- Date: Thu, 26 Jun 2025 16:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.189027
- Title: Text2Cypher Across Languages: Evaluating Foundational Models Beyond English
- Title(参考訳): Text2Cypher Across Languages: 英語以外の基礎モデルの評価
- Authors: Makbule Gulcin Ozsoy, William Tai,
- Abstract要約: 本稿では,複数の言語を対象としたText2Cypherタスクにおける基礎LPMの性能について検討する。
元のCypherクエリを保存しながら、英語の質問をスペイン語とトルコ語に翻訳することで、多言語テストセットを作成し、リリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models have enabled natural language interfaces that translate user questions into database queries, such as Text2SQL, Text2SPARQL, and Text2Cypher. While these interfaces enhance database accessibility, most research today focuses solely on English, with limited evaluation in other languages. This paper investigates the performance of foundational LLMs on the Text2Cypher task across multiple languages. We create and release a multilingual test set by translating English questions into Spanish and Turkish while preserving the original Cypher queries, enabling fair cross-lingual comparison. We evaluate multiple foundational models using standardized prompts and metrics. Our results show a consistent performance pattern: highest on English, then Spanish, and lowest on Turkish. We attribute this to differences in training data availability and linguistic characteristics. Additionally, we explore the impact of translating task prompts into Spanish and Turkish. Results show little to no change in evaluation metrics, suggesting prompt translation has minor impact. Our findings highlight the need for more inclusive evaluation and development in multilingual query generation. Future work includes schema localization and fine-tuning across diverse languages.
- Abstract(参考訳): 大規模言語モデルの最近の進歩により、ユーザ質問をText2SQL、Text2SPARQL、Text2Cypherといったデータベースクエリに変換する自然言語インターフェースが実現された。
これらのインターフェースはデータベースのアクセシビリティを向上させるが、今日ではほとんどの研究は英語のみに焦点を絞っており、他の言語では限定的な評価がなされている。
本稿では,複数の言語を対象としたText2Cypherタスクにおける基礎LPMの性能について検討する。
我々は、オリジナルのCypherクエリを保存しながら、英語の質問をスペイン語とトルコ語に翻訳して多言語テストセットを作成し、リリースし、適切な言語間比較を可能にする。
標準化されたプロンプトとメトリクスを用いて、複数の基礎モデルを評価する。
結果は、英語では最高、スペイン語では最低、トルコ語では最低という一貫したパフォーマンスパターンを示している。
これは、トレーニングデータの可用性と言語的特性の違いによるものである。
さらに,タスクプロンプトのスペイン語とトルコ語への翻訳の影響についても検討する。
結果は評価基準がほとんどあるいは全く変化せず、プロンプト翻訳はわずかな影響しか与えていないことを示唆している。
本研究は,多言語クエリ生成において,より包括的評価と開発の必要性を強調した。
今後の作業には、スキーマのローカライゼーションと、さまざまな言語での微調整が含まれる。
関連論文リスト
- Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - The Roles of English in Evaluating Multilingual Language Models [6.396057276543912]
これらの役割には,タスクパフォーマンスと言語理解という,異なる目標がある,と私たちは主張する。
我々は、この不正確な方法から離れ、言語理解を強化することに重点を置くことを推奨する。
論文 参考訳(メタデータ) (2024-12-11T14:02:55Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。