論文の概要: AGRO-SQL: Agentic Group-Relative Optimization with High-Fidelity Data Synthesis
- arxiv url: http://arxiv.org/abs/2512.23366v1
- Date: Mon, 29 Dec 2025 10:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.468323
- Title: AGRO-SQL: Agentic Group-Relative Optimization with High-Fidelity Data Synthesis
- Title(参考訳): AGRO-SQL:高忠実度データ合成によるエージェントグループ相対最適化
- Authors: Cehua Yang, Dongyu Xiao, Junming Lin, Yuyang Song, Hanxu Yan, Shawn Guo, Wei Zhang, Jian Yang, Mingjie Tang, Bryan Dai,
- Abstract要約: 本稿では、高品質なトレーニングデータの不足と、複雑なシナリオにおけるモデルの限定的推論能力に対処する包括的フレームワークを提案する。
データ中心の観点から、高い精度で特徴付けられるRL対応データを合成する反復データファクトリを構築する。
モデル中心の観点から,新しいエージェント強化学習フレームワークを導入する。
- 参考スコア(独自算出の注目度): 10.05616886251577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Text-to-SQL systems is currently hindered by the scarcity of high-quality training data and the limited reasoning capabilities of models in complex scenarios. In this paper, we propose a holistic framework that addresses these issues through a dual-centric approach. From a Data-Centric perspective, we construct an iterative data factory that synthesizes RL-ready data characterized by high correctness and precise semantic-logic alignment, ensured by strict verification. From a Model-Centric perspective, we introduce a novel Agentic Reinforcement Learning framework. This framework employs a Diversity-Aware Cold Start stage to initialize a robust policy, followed by Group Relative Policy Optimization (GRPO) to refine the agent's reasoning via environmental feedback. Extensive experiments on BIRD and Spider benchmarks demonstrate that our synergistic approach achieves state-of-the-art performance among single-model methods.
- Abstract(参考訳): Text-to-SQLシステムの進歩は、現在、高品質なトレーニングデータの不足と、複雑なシナリオにおけるモデルの限定的な推論能力によって妨げられている。
本稿では,これらの問題に両中心のアプローチで対処する包括的枠組みを提案する。
データ中心の観点から、厳密な検証によって保証される高精度で正確な意味論理的アライメントを特徴とするRL-readyデータを合成する反復データファクトリを構築する。
モデル中心の観点から,新しいエージェント強化学習フレームワークを導入する。
このフレームワークは、堅牢なポリシーを初期化するために多様性を意識したコールドスタートステージを使用し、続いて、環境フィードバックを通じてエージェントの推論を洗練させるグループ相対的ポリシー最適化(GRPO)が続く。
BIRDとスパイダーベンチマークの大規模な実験は、我々の相乗的アプローチが単一モデル法における最先端性能を達成することを実証している。
関連論文リスト
- TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning [28.052232941379884]
TableGPT-R1は、システマティック強化学習フレームワーク上に構築された特殊なモデルである。
本手法は, 教師付きアライメントとRLロールアウトの両方に対して, 難成層化エージェント軌道を合成する。
信頼性ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-23T12:30:37Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [65.13288661320364]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。