論文の概要: GAPD: Gold-Action Policy Distillation for Agentic Reinforcement Learning in Knowledge Base Question Answering
- arxiv url: http://arxiv.org/abs/2605.29584v2
- Date: Wed, 03 Jun 2026 07:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.555561
- Title: GAPD: Gold-Action Policy Distillation for Agentic Reinforcement Learning in Knowledge Base Question Answering
- Title(参考訳): GAPD:知識ベース質問応答におけるエージェント強化学習のためのゴールドアクション政策蒸留
- Authors: Xin Sun, Jianan Xie, Zhongqi Chen, Qiang Liu, Shu Wu, Bowen Song, Weiqiang Wang, Zilei Wang, Liang Wang,
- Abstract要約: 結果に基づくRLに高密度トークンレベルガイダンスを付加する訓練時間金反応政策蒸留フレームワークを提案する。
GAPDはWebQSP、GrailQA、GraphQの最先端技術に一貫して勝っている。
- 参考スコア(独自算出の注目度): 64.23115520219609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a natural fit for agentic knowledge base question answering (KBQA), where a model must issue executable actions, observe knowledge-base feedback, and eventually return an answer. However, current RL-based KBQA systems mainly optimize sparse rewards from the final answer, leaving intermediate action errors weakly supervised. This is especially limiting for logical-form annotated KBQA benchmarks: gold logical forms can be converted into executable action sequences, but existing pipelines use them mainly for warm-start data construction rather than for on-policy RL updates. We propose GAPD, a training-time Gold-Action Policy Distillation framework that adds dense token-level guidance to outcome-based RL. To align gold actions with on-policy student rollouts, GAPD uses MID-ANCHOR MATCHING: it treats the intermediate entities reached during student exploration and gold execution as state anchors, and matches student states to gold states through these explored entity sets. The current policy conditioned on this aligned gold action serves as a stop-gradient teacher, whose token distribution is distilled back to the ordinary student policy over generated action-token spans. GAPD consistently surpasses the current state of the art on WebQSP, GrailQA, and GraphQ.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エージェント的知識ベース質問応答(KBQA)に適しており、モデルが実行可能なアクションを発行し、知識ベースのフィードバックを観察し、最終的には回答を返す必要がある。
しかし、現在のRLベースのKBQAシステムは主に最終回答からのスパース報酬を最適化し、中間動作エラーを弱めに監視している。
金の論理形式を実行可能なアクションシーケンスに変換することができるが、既存のパイプラインでは、オンポラリRL更新ではなく、主にウォームスタートデータ構築に使用している。
結果に基づくRLに高濃度のトークンレベルガイダンスを付加する訓練時間金反応政策蒸留フレームワークであるGAPDを提案する。
MID-ANCHOR MATCHING(MID-ANCHOR MATCHING)は、学生の探索中に到達した中間的実体を国家のアンカーとして扱い、これらの調査されたエンティティセットを通じて学生国家と金の国家をマッチングする。
この整列した金の行動に規定された現在の政策は、トークンの分布を、生成されたアクション・トケン・スパンの通常の学生政策に還元するストップ・グラディエントな教師として機能する。
GAPDはWebQSP、GrailQA、GraphQの最先端を一貫して上回っている。
関連論文リスト
- Text-to-SPARQL Generation with Reinforcement Learning: A GRPO-based Approach on DBLP [5.221431176702212]
グループ相対ポリシー最適化は、DBLP-QuAD上のQwen3-1.7Bモデルに適用される。
本研究では、結果に基づく報酬を用いた強化学習が、ゼロショットテキスト・トゥ・SPARQL生成を行うために、小さな命令調整言語モデルを訓練できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-05-19T16:20:57Z) - Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning [1.517713730645682]
我々は,構造的かつ多条件の報酬に対してポリシを最適化するフレームワークとして,経験的地下強化学習(RL: Emphrubric-grounded reinforcement learning)を定式化する。
我々は、約10万の科学・技術文書からなるOSTI(Office of Scientific and Technical Information)由来のコーパスから潤滑剤を抽出して、この枠組みをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-08T17:48:58Z) - Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers [26.97849381770806]
自己誘導型アウトカム電位は、最終回答のセマンティッククラスタを、ポテンシャルに基づくターンレベルのクレジット割り当てのための潜在的な将来の結果状態として扱う。
我々は,このフレームワークを形式化し,監督対象のゴールド・アンサー・リミットを特徴付けるとともに,SIOPが検証自由な結果レベルベースラインよりも平均性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-05-06T14:38:48Z) - GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies [22.819853466384686]
フローマッチング政策は強化学習(RL)を大いに約束する
彼らの実践的応用は、しばしば禁止的な遅延推論と効果の低いオンライン探索によって妨げられる。
我々は,Q誘導前処理と明示的エントロピー制御を備えた政策蒸留法であるGoldenStart(GSFlow)を提案する。
統合されたフレームワークは、生成開始点を設計し、ポリシーエントロピーを明示的に制御することにより、効率的かつ探索的なポリシーを達成できることを実証する。
論文 参考訳(メタデータ) (2026-03-15T06:39:09Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - KAQG: A Knowledge-Graph-Enhanced RAG for Difficulty-Controlled Question Generation [0.0]
本研究は知識強化質問生成(KAQG)を紹介する。
項目応答理論(IRT)、ブルームの分類学、知識グラフをマルチエージェント検索拡張生成システムに統合する。
提案手法は, 項目難易度, 心理測定校正, 認知アライメントのきめ細かい制御を可能にすることによって, 既存の手法の限界を克服する。
論文 参考訳(メタデータ) (2025-05-12T14:42:19Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。