論文の概要: Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction
- arxiv url: http://arxiv.org/abs/2511.11770v1
- Date: Fri, 14 Nov 2025 08:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.297372
- Title: Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction
- Title(参考訳): 繰り返しSPARQLクエリ構築のためのエージェントRLアプローチ
- Authors: Floris Vossebeld, Shenghui Wang,
- Abstract要約: 現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。
本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。
結果駆動型強化学習(GRPO)によってのみ訓練されたコンパクトな3B-パラメータモデルが,このタスクの効果的なポリシを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 0.18907108368038208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating complex, logically-sound SPARQL queries for multi-hop questions remains a critical bottleneck for Knowledge Graph Question Answering, as the brittle nature of one-shot generation by Large Language Models (LLMs) hinders reliable interaction with structured data. Current methods lack the adaptive policies needed to dynamically debug queries based on real-time execution feedback. This paper introduces a novel agentic framework where an LLM learns a resilient policy for the sequential process of iterative SPARQL construction. We show that a compact 3B-parameter model, trained exclusively via outcome-driven Reinforcement Learning (GRPO) without supervised fine-tuning, can learn effective policies for this task, discovering how to systematically recover from execution errors and refine its queries toward a correct answer. On a curated, executable single-answer subset of LC-QuAD 2.0, our agent achieves 49.7\% accuracy post-entity-linking, a significant 17.5 percentage point improvement over the strongest iterative zero-shot baseline. Further analysis reveals that while the agent's capability is driven by RL, its performance is enhanced by an explicit deliberative reasoning step that acts as a cognitive scaffold to improve policy precision. This work presents a generalizable blueprint for teaching agents to master formal, symbolic tools through interaction, bridging the gap between probabilistic LLMs and the structured world of Knowledge Graphs.
- Abstract(参考訳): 大規模言語モデル(LLM)によるワンショット生成の脆弱な性質は、構造化データとの信頼性の高い相互作用を妨げるため、マルチホップ質問のための複雑で論理的なSPARQLクエリの生成は、知識グラフ質問回答にとって依然として重要なボトルネックである。
現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。
本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。
本研究では,結果駆動型強化学習(GRPO)を専門に訓練したコンパクトな3Bパラメータモデルにより,このタスクの効果的なポリシを学習し,実行エラーから体系的に回復する方法を発見し,そのクエリを正しい回答に向けて洗練することを示す。
LC-QuAD 2.0のキュレートされた単一問合せサブセットでは,最強反復ゼロショットベースラインに対して,49.7\%の精度で17.5ポイントの精度向上を実現した。
さらに分析したところ、エージェントの能力はRLによって駆動されるが、その性能は、認知的足場として機能し、政策精度を向上させる明示的な熟考的推論ステップによって向上することが明らかとなった。
この研究は、エージェントが相互作用を通じて形式的で象徴的なツールを習得し、確率的LLMと構造化された知識グラフのギャップを埋めるための一般的な青写真を提供する。
関連論文リスト
- Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。
LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。
本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2025-07-18T12:28:08Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。