論文の概要: Text-to-SPARQL Generation with Reinforcement Learning: A GRPO-based Approach on DBLP
- arxiv url: http://arxiv.org/abs/2605.20066v1
- Date: Tue, 19 May 2026 16:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.518122
- Title: Text-to-SPARQL Generation with Reinforcement Learning: A GRPO-based Approach on DBLP
- Title(参考訳): 強化学習によるテキスト・ツー・SPARQL生成:DBLPに対するGRPOに基づくアプローチ
- Authors: Jann Pfeifer, Debayan Banerjee, Ricardo Usbeck,
- Abstract要約: グループ相対ポリシー最適化は、DBLP-QuAD上のQwen3-1.7Bモデルに適用される。
本研究では、結果に基づく報酬を用いた強化学習が、ゼロショットテキスト・トゥ・SPARQL生成を行うために、小さな命令調整言語モデルを訓練できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 5.221431176702212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graph question answering seeks to translate natural language questions into executable queries over knowledge graphs, but existing approaches often rely on large models or full supervision in the form of gold query annotations. This study examines whether reinforcement learning with outcome-based rewards can train a small instruction-tuned language model to perform zero-shot Text-to-SPARQL generation in the scholarly domain. Group-Relative Policy Optimization (GRPO) is applied to the Qwen3-1.7B model on DBLP-QuAD, using prompts that combine natural language questions with symbolic hints about entities and relations. Training relies on execution feedback, structural constraints, and answer-level rewards, with an additional variant that incorporates gold-query-based shaping. The resulting models are compared to the unmodified zero-shot baseline and to a supervised DoRA-finetuned baseline across answer-level accuracy, execution accuracy, category-wise scores, and generalization to held-out templates. GRPO substantially improves over the zero-shot baseline and exhibits competitive generalization, while supervised DoRA finetuning achieves higher overall accuracy on the same model scale. Ablation analyses indicate that execution-based rewards account for most gains, with additional shaping yielding limited additional benefit, suggesting that outcome-based reinforcement learning is a viable training strategy when gold queries are unavailable for token-level supervision.
- Abstract(参考訳): 知識グラフの解答は、自然言語の質問を知識グラフ上の実行可能なクエリに翻訳しようとするが、既存のアプローチは、金のクエリアノテーションという形で、大きなモデルや完全な監視に依存していることが多い。
本研究では,結果に基づく報酬を用いた強化学習が,学習領域におけるゼロショットテキスト・トゥ・SPARQL生成を行うために,小さな命令学習言語モデルを訓練できるかどうかを検討する。
グループ相対政策最適化(GRPO)はDBLP-QuAD上のQwen3-1.7Bモデルに適用され、自然言語問題と実体と関係に関する記号的なヒントを組み合わせたプロンプトを使用する。
トレーニングは実行フィードバック、構造的制約、回答レベルの報酬に頼っており、ゴールドキーベースのシェーピングを取り入れた追加のバリエーションがある。
得られたモデルは、未修正のゼロショットベースラインと、回答レベルの正確性、実行精度、カテゴリワイズスコア、保留テンプレートへの一般化を含む教師付きDoRAファクチュニングベースラインと比較される。
GRPOはゼロショットベースラインを大幅に改善し、競合一般化を示す一方で、教師付きDoRAファインタニングは同じモデルスケールでより高い全体的な精度を達成する。
アブレーション分析は、金のクエリがトークンレベルの監視に利用できない場合、結果に基づく強化学習が実行可能なトレーニング戦略であることを示す。
関連論文リスト
- Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。