論文の概要: SQL-ASTRA: Alleviating Sparse Feedback in Agentic SQL via Column-Set Matching and Trajectory Aggregation
- arxiv url: http://arxiv.org/abs/2603.16161v1
- Date: Tue, 17 Mar 2026 06:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.130581
- Title: SQL-ASTRA: Alleviating Sparse Feedback in Agentic SQL via Column-Set Matching and Trajectory Aggregation
- Title(参考訳): SQL-ASTRA:カラムセットマッチングとトラジェクティブアグリゲーションによるエージェントSQLのスパースフィードバックを軽減する
- Authors: Long Li, Zhijian Zhou, Jiangxuan Long, Peiyang Liu, Weidi Xu, Zhe Wang, Shirui Pan, Chao Qu,
- Abstract要約: 本稿では,効率的な軌道レベル評価と高密度ステップレベル信号の提供を目的とした,普遍的な2層報酬機構を特徴とするフレームワークを提案する。
伝統的なパラダイムでは、報酬は最終ターンのフィードバックによってのみ決定され、中間プロセスを無視し、曖昧な信用評価をもたらす。
提案手法は,同一モデルを用いてBIRD 2.0上でのSOTA Arctic-Text2-R1-7Bより優れており,頑健なマルチターンエージェントのパラダイムに向けてテキストから逆収束を推進していることを示す。
- 参考スコア(独自算出の注目度): 51.696027315573296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic Reinforcement Learning (RL) shows promise for complex tasks, but Text-to-SQL remains mostly restricted to single-turn paradigms. A primary bottleneck is the credit assignment problem. In traditional paradigms, rewards are determined solely by the final-turn feedback, which ignores the intermediate process and leads to ambiguous credit evaluation. To address this, we propose Agentic SQL, a framework featuring a universal two-tiered reward mechanism designed to provide effective trajectory-level evaluation and dense step-level signals. First, we introduce Aggregated Trajectory Reward (ATR) to resolve multi-turn credit assignment. Using an asymmetric transition matrix, ATR aggregates process-oriented scores to incentivize continuous improvement. Leveraging Lyapunov stability theory, we prove ATR acts as an energy dissipation operator, guaranteeing a cycle-free policy and monotonic convergence. Second, Column-Set Matching Reward (CSMR) provides immediate step-level rewards to mitigate sparsity. By executing queries at each turn, CSMR converts binary (0/1) feedback into dense [0, 1] signals based on partial correctness. Evaluations on BIRD show a 5% gain over binary-reward GRPO. Notably, our approach outperforms SOTA Arctic-Text2SQL-R1-7B on BIRD and Spider 2.0 using identical models, propelling Text-to-SQL toward a robust multi-turn agent paradigm.
- Abstract(参考訳): Agentic Reinforcement Learning (RL)は複雑なタスクを約束するが、Text-to-SQLは依然としてシングルターンパラダイムに限られている。
主なボトルネックは、クレジット割り当ての問題である。
伝統的なパラダイムでは、報酬は最終ターンのフィードバックによってのみ決定され、中間プロセスを無視し、曖昧な信用評価をもたらす。
そこで我々は,効果的な軌道レベルの評価と高密度ステップレベルの信号を提供するために,汎用的な2層報酬機構を備えたAgentic SQLを提案する。
まず,Aggregated Trajectory Reward(ATR)を導入して,マルチターンクレジットの割り当てを解決する。
非対称遷移行列を用いて、ATRはプロセス指向のスコアを集約し、継続的な改善のインセンティブを与える。
リアプノフ安定理論を応用して、ATRがエネルギー散逸作用素として作用し、サイクルフリーポリシーと単調収束を保証する。
第2に、カラム・セットマッチング・リワード(CSMR)は、スパーシリティを緩和するために即時ステップレベルの報酬を提供する。
各ターンでクエリを実行することで、CSMRはバイナリ(0/1)のフィードバックを部分的正しさに基づいて高密度な[0, 1]信号に変換する。
BIRDの評価では、バイナリリワードGRPOよりも5%向上した。
特に,本手法は同一モデルを用いてBIRDとSpider 2.0上でSOTA Arctic-Text2SQL-R1-7Bより優れており,堅牢なマルチターンエージェントパラダイムに向けてText-to-SQLを推進している。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute [0.0]
我々はARC-AGI-1のARC Prize TRMチェックポイントを実験的に分析した。
テストタイムの増大と多数投票の合理化が報告された性能のかなりの部分を占めていることを示す。
また, TRMとLlama 3 8BのQLoRAファインチューンを標準ARC-AGI-1上で比較した。
論文 参考訳(メタデータ) (2025-12-04T06:20:44Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data [38.656987194921854]
Transformer (RT) アーキテクチャは、様々なリレーショナルデータベース上で事前トレーニングすることができる。
RTは強いゼロショットを破り、バイナリ分類タスクにおいて、完全に教師されたAUROCの93%を平均化する。
論文 参考訳(メタデータ) (2025-10-07T18:51:51Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。