論文の概要: KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering
- arxiv url: http://arxiv.org/abs/2512.10999v1
- Date: Wed, 10 Dec 2025 17:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.515117
- Title: KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering
- Title(参考訳): KBQA-R1:知識ベース質問応答のための大規模言語モデルの強化
- Authors: Xin Sun, Zhongqi Chen, Xing Zheng, Qiang Liu, Shu Wu, Bowen Song, Zilei Wang, Weiqiang Wang, Liang Wang,
- Abstract要約: テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 64.62317305868264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Base Question Answering (KBQA) challenges models to bridge the gap between natural language and strict knowledge graph schemas by generating executable logical forms. While Large Language Models (LLMs) have advanced this field, current approaches often struggle with a dichotomy of failure: they either generate hallucinated queries without verifying schema existence or exhibit rigid, template-based reasoning that mimics synthesized traces without true comprehension of the environment. To address these limitations, we present \textbf{KBQA-R1}, a framework that shifts the paradigm from text imitation to interaction optimization via Reinforcement Learning. Treating KBQA as a multi-turn decision process, our model learns to navigate the knowledge base using a list of actions, leveraging Group Relative Policy Optimization (GRPO) to refine its strategies based on concrete execution feedback rather than static supervision. Furthermore, we introduce \textbf{Referenced Rejection Sampling (RRS)}, a data synthesis method that resolves cold-start challenges by strictly aligning reasoning traces with ground-truth action sequences. Extensive experiments on WebQSP, GrailQA, and GraphQuestions demonstrate that KBQA-R1 achieves state-of-the-art performance, effectively grounding LLM reasoning in verifiable execution.
- Abstract(参考訳): 知識ベース質問回答(KBQA)は、自然言語と厳密な知識グラフスキーマの間のギャップを、実行可能な論理形式を生成することによって埋めるモデルに挑戦する。
大規模な言語モデル(LLM)はこの分野を前進させているが、現在のアプローチでは、スキーマの存在を検証せずに幻覚的なクエリを生成するか、あるいは、環境の真の理解なしに合成されたトレースを模倣する、厳密なテンプレートベースの推論を示すかのどちらかである。
これらの制約に対処するために,テキストの模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである「textbf{KBQA-R1}」を提案する。
KBQAを多ターン決定プロセスとして扱うことで,グループ相対政策最適化(GRPO)を活用して,静的監視ではなく具体的な実行フィードバックに基づく戦略を洗練し,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
さらに, コールドスタート問題を解決するためのデータ合成手法として, 接地トラストの動作列と推論トレースを厳密に整合させることにより, 冷間開始問題の解決を行う。
WebQSP、GrailQA、GraphQuestionsに関する大規模な実験は、KBQA-R1が最先端のパフォーマンスを実現し、検証可能な実行におけるLLM推論を効果的に基礎づけていることを示している。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models [19.85526116658481]
本稿では,新規かつ簡易な生成検索KBQAフレームワークであるChatKBQAを紹介する。
実験の結果,ChatKBQAは標準KBQAデータセット上で新たな最先端性能を実現することがわかった。
この研究は、LLMと知識グラフを組み合わせるための新しいパラダイムとして、解釈可能および知識要求型質問応答のパラダイムと見なすこともできる。
論文 参考訳(メタデータ) (2023-10-13T09:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。