論文の概要: Bridging the Semantic Gap: Contrastive Rewards for Multilingual Text-to-SQL
- arxiv url: http://arxiv.org/abs/2510.13827v1
- Date: Fri, 10 Oct 2025 03:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.451313
- Title: Bridging the Semantic Gap: Contrastive Rewards for Multilingual Text-to-SQL
- Title(参考訳): セマンティックギャップのブリッジ:マルチ言語テキストからSQLへのコントラストリワード
- Authors: Ashish Kattamuri, Ishita Prasad, Meetu Malhotra, Arpita Vats, Rahul Raja, Albert Lie,
- Abstract要約: 現在のテキストから言語へのメソッドは、セマンティックアライメントの課題を見越して、実行可能なクエリのみに焦点を当てている。
タスク効率と意味的精度を両立させるため,多言語コントラスト報酬信号を組み合わせた新しいフレームワークを提案する。
提案手法は,意味的類似性に基づく報酬信号を組み合わせることにより,生成とユーザ意図の対応性の向上をモデルに教える。
- 参考スコア(独自算出の注目度): 2.8727471514655902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Text-to-SQL methods are evaluated and only focused on executable queries, overlooking the semantic alignment challenge -- both in terms of the semantic meaning of the query and the correctness of the execution results. Even execution accuracy itself shows significant drops when moving from English to other languages, with an average decline of 6 percentage points across non-English languages. We address these challenges by presenting a new framework that combines Group Relative Policy Optimization (GRPO) within a multilingual contrastive reward signal to enhance both task efficiency and semantic accuracy in Text-to-SQL systems in cross-lingual scenarios. Our method teaches models to obtain better correspondence between SQL generation and user intent by combining a reward signal based on semantic similarity. On the seven-language MultiSpider dataset, fine-tuning the LLaMA-3-3B model with GRPO improved the execution accuracy up to 87.4 percent (+26 pp over zero-shot) and semantic accuracy up to 52.29 percent (+32.86 pp). Adding our contrastive reward signal in the GRPO framework further improved the average semantic accuracy to 59.14 percent (+6.85 pp, up to +10 pp for Vietnamese). Our experiments showcase that a smaller, parameter-efficient 3B LLaMA model fine-tuned with our contrastive reward signal outperforms a much larger zero-shot 8B LLaMA model, with an uplift of 7.43 pp in execution accuracy (from 81.43 percent on the 8B model to 88.86 percent on the 3B model), and nearly matches its semantic accuracy (59.14 percent vs. 68.57 percent) -- all using just 3,000 reinforcement learning training examples. These results demonstrate how we can improve the performance of Text-to-SQL systems with contrastive rewards for directed semantic alignment, without requiring large-scale training datasets.
- Abstract(参考訳): 現在のText-to-SQLメソッドは、クエリの意味的意味と実行結果の正確性の両方の観点から、セマンティックアライメントの課題を見越して、実行可能なクエリのみに注目して評価されている。
実行精度自体も、英語から他の言語に移行する際の顕著な低下を示しており、非英語言語の平均的な減少率は6ポイントである。
我々は,言語横断シナリオにおけるテキスト-SQLシステムにおけるタスク効率と意味的精度を両立させるため,多言語コントラスト報酬信号にグループ相対ポリシー最適化(GRPO)を組み合わせた新しいフレームワークを提案することにより,これらの課題に対処する。
本手法は,意味的類似性に基づく報酬信号を組み合わせることで,SQL生成とユーザ意図の対応性の向上をモデルに教える。
7言語対応のMultiSpiderデータセットでは、GRPOによるLLaMA-3-3Bモデルの微調整により、実行精度は87.4% (+26pp over zero-shot)、セマンティック精度は52.9% (+32.86pp)まで向上した。
GRPOフレームワークに我々の対照的な報酬信号を追加することで、平均的な意味的精度は59.14パーセント(+6.85pp、ベトナムでは+10pp)に向上した。
我々の実験では、より小さく、パラメータ効率のよい3B LLaMAモデルと、我々の対照的な報酬信号で微調整され、より大きなゼロショット8B LLaMAモデルより優れており、実行精度は7.43 pp(8Bモデルでは81.43%から3Bモデルでは88.6%まで)で、意味的精度(59.4%対68.7%)とほぼ一致している。
これらの結果は、大規模なトレーニングデータセットを必要とせずに、直接意味的アライメントに対する対照的な報酬で、テキストからSQLシステムのパフォーマンスを改善する方法を示している。
関連論文リスト
- Evaluating NL2SQL via SQL2NL [45.88028371034407]
新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
論文 参考訳(メタデータ) (2025-09-04T21:03:59Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。