論文の概要: Text2Cypher Across Languages: Evaluating and Finetuning LLMs
- arxiv url: http://arxiv.org/abs/2506.21445v2
- Date: Thu, 04 Sep 2025 18:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.199525
- Title: Text2Cypher Across Languages: Evaluating and Finetuning LLMs
- Title(参考訳): Text2Cypher Across Languages:Evaluating and Finetuning LLMs
- Authors: Makbule Gulcin Ozsoy, William Tai,
- Abstract要約: 本論文では,複数の言語を対象としたText2Cypherタスクにおける基礎的および微調整LLMの性能について検討する。
英語の質問をスペイン語とトルコ語に翻訳することで、多言語データセットを作成し、リリースします。
標準化されたプロンプトとメトリクスを用いて、いくつかの基礎モデルを評価し、一貫したパフォーマンスパターンを観察する。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled natural language interfaces that translate user questions into database queries, such as Text2SQL, Text2SPARQL, and Text2Cypher. While these interfaces enhance database accessibility, most research today focuses on English, with limited evaluation in other languages. This paper investigates the performance of both foundational and finetuned LLMs on the Text2Cypher task across multiple languages. We create and release a multilingual dataset by translating English questions into Spanish and Turkish while preserving the original Cypher queries, enabling fair cross-lingual comparison. Using standardized prompts and metrics, we evaluate several foundational models and observe a consistent performance pattern: highest on English, followed by Spanish, and lowest on Turkish. We attribute this to differences in training data availability and linguistic features. We also examine the impact of translating task prompts into Spanish and Turkish. Results show little to no change in evaluation metrics, suggesting prompt translation has minor impact. Furthermore, we finetune a foundational model on two datasets: one in English only, and one multilingual. Finetuning on English improves overall accuracy but widens the performance gap between languages. In contrast, multilingual finetuning narrows the gap, resulting in more balanced performance. Our findings highlight the importance for multilingual evaluation and training to build more inclusive and robust query generation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、ユーザ質問をText2SQL、Text2SPARQL、Text2Cypherといったデータベースクエリに変換する自然言語インターフェースが実現された。
これらのインターフェースはデータベースのアクセシビリティを向上させるが、今日ではほとんどの研究は英語に焦点を当てており、他の言語では限定的な評価がなされている。
本論文では,複数の言語を対象としたText2Cypherタスクにおける基礎的および微調整LLMの性能について検討する。
我々は、オリジナルのCypherクエリを保存しながら、英語の質問をスペイン語とトルコ語に翻訳することで、多言語データセットを作成し、リリースし、適切な言語間比較を可能にします。
標準化されたプロンプトとメトリクスを用いて、いくつかの基礎モデルを評価し、一貫したパフォーマンスパターンを観察する。
これは、トレーニングデータの可用性と言語的特徴の違いによる。
また、スペイン語とトルコ語へのタスクプロンプトの翻訳の影響についても検討する。
結果は評価基準がほとんどあるいは全く変化せず、プロンプト翻訳はわずかな影響しか与えていないことを示唆している。
さらに,2つのデータセット(英語のみと多言語のみ)の基盤モデルを微調整する。
英語の微調整は全体的な精度を向上させるが、言語間のパフォーマンスギャップを拡大する。
対照的に、多言語微調整はギャップを狭め、よりバランスの取れた性能をもたらす。
本研究は,より包括的で堅牢なクエリ生成システムを構築するための多言語評価とトレーニングの重要性を強調した。
関連論文リスト
- Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - The Roles of English in Evaluating Multilingual Language Models [6.396057276543912]
これらの役割には,タスクパフォーマンスと言語理解という,異なる目標がある,と私たちは主張する。
我々は、この不正確な方法から離れ、言語理解を強化することに重点を置くことを推奨する。
論文 参考訳(メタデータ) (2024-12-11T14:02:55Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。