論文の概要: A State-of-the-Art SQL Reasoning Model using RLVR
- arxiv url: http://arxiv.org/abs/2509.21459v1
- Date: Thu, 25 Sep 2025 19:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.937373
- Title: A State-of-the-Art SQL Reasoning Model using RLVR
- Title(参考訳): RLVRを用いた最先端SQL推論モデル
- Authors: Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang,
- Abstract要約: BIRDと呼ばれる一般的なデータサイエンスベンチマークにReinforcement Learningを適用した。
BIRDトレーニングセット以外のトレーニングデータがないため、私たちの最初の提出は最先端の精度に達しました。
BIRDは単なるプロキシタスクですが、私たちのフレームワークのシンプルさによって、エンタープライズドメインに広く適用できます。
- 参考スコア(独自算出の注目度): 42.52886312890734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing custom reasoning models via Reinforcement Learning (RL) that can incorporate organization-specific knowledge has great potential to address problems faced by enterprise customers. In many of these problems, the reward function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We apply RLVR to a popular data science benchmark called BIRD that measures the ability of an AI agent to convert a natural language query for a database to SQL executions. We apply a simple and general-purpose training recipe involving careful prompt and model selection, a warm-up stage using our offline RL approach called TAO, followed by rigorous online RLVR training. With no additional training data beyond the BIRD training set and no use of proprietary models, our very first submission to the BIRD leaderboard reached state-of-the-art accuracy on the private test set: 73.56% without self-consistency and 75.68% with self-consistency. In the latter case, our model also required fewer generations than the second-best approach. While BIRD is only a proxy task, the simplicity of our framework makes it broadly applicable to enterprise domains such as business intelligence, data science, and coding.
- Abstract(参考訳): 組織固有の知識を組み込んだRL(Reinforcement Learning)による独自の推論モデルの開発は、企業顧客が直面している問題に対処する大きな可能性を秘めている。
これらの問題の多くにおいて、報酬関数は検証可能であり、RL(Verible Rewards, RLVR)と呼ばれる。
我々は、RLVRをBIRDと呼ばれる一般的なデータサイエンスベンチマークに適用し、AIエージェントがデータベースの自然言語クエリをSQL実行に変換する能力を測定する。
TAOと呼ばれるオフラインRLアプローチを用いたウォームアップステージと、厳格なオンラインRLVRトレーニングを併用した、注意深いプロンプトとモデル選択を含む、シンプルで汎用的なトレーニングレシピを適用した。
BIRDトレーニングセット以外の追加のトレーニングデータがなく、プロプライエタリモデルの使用もないため、BIRDリーダーボードへの最初の提出は、プライベートテストセットで最先端の精度に達した。
後者の場合、我々のモデルは第2のベストアプローチよりも少ない世代を必要とする。
BIRDは単なるプロキシタスクですが、私たちのフレームワークのシンプルさは、ビジネスインテリジェンス、データサイエンス、コーディングといったエンタープライズドメインに広く適用できます。
関連論文リスト
- Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Language Models as Continuous Self-Evolving Data Engineers [32.67875951851165]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
従来のトレーニングアプローチは、専門家ラベル付きデータに大きく依存しています。
我々はLANCEという新しいパラダイムを提案し、LLMはデータの自動生成、クリーニング、レビュー、注釈付けによって自らを訓練することができる。
論文 参考訳(メタデータ) (2024-12-19T18:28:41Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。