論文の概要: KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA
- arxiv url: http://arxiv.org/abs/2510.25101v1
- Date: Wed, 29 Oct 2025 02:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.981111
- Title: KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA
- Title(参考訳): KnowCoder-A1:KBQAのアウトカムスーパービジョンによるエージェント推論能力のインセンティブ化
- Authors: Zhuo Chen, Fei Wang, Zixuan Li, Zhao Zhang, Weiwei Ding, Chuanguang Yang, Yongjun Xu, Xiaolong Jin, Jiafeng Guo,
- Abstract要約: 知識ベース質問回答 (KBQA) は、構造化知識ベース (KB) に関する自然言語質問に答えることを目的としている。
近年の作業は,大規模言語モデル(LLM)が質問を反復的に分解し,対応する論理的クエリを生成し,KBと対話して答えを導出する,エージェント推論パラダイムを採用することでKBQAを改善している。
そこで我々は,KBのエージェント推論を自律的に行うLLMであるKnowCoder-A1を提案する。
- 参考スコア(独自算出の注目度): 55.26634094204971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Base Question Answering (KBQA) aims to answer natural-language questions over a structured Knowledge Base (KB). Recent work improves KBQA by adopting an agentic reasoning paradigm, in which Large Language Models (LLMs) iteratively decompose a question, generate its corresponding logical queries, and interact with the KB to derive the answer. However, these methods typically fine-tune LLMs on reasoning trajectories synthesized via process supervision, which offers weak incentives for exploration and thus fails to strengthen the agentic reasoning ability. In this paper, we propose KnowCoder-A1, an LLM that can autonomously perform agentic reasoning on KBs to obtain answers. To incentivize autonomous exploration, KnowCoder-A1 trains the LLM under outcome-only supervision via a multi-stage curriculum reinforcement learning with an easy-to-hard curriculum. To establish foundational agentic capabilities, KnowCoder-A1 first fine-tunes the LLM on a small set of high-quality trajectories obtained through outcome-based rejection sampling. Then, to alleviate the reward sparsity inherent in outcome-only supervision, it applies multi-stage curriculum RL with reward schedules that progress from easy to hard. Trained with outcome-only supervision, KnowCoder-A1 exhibits powerful reasoning behaviors and consistently outperforms prior approaches across three mainstream datasets. Notably, on the zero-shot subset of GrailQA, KnowCoder-A1 achieves up to an 11.1% relative improvement while using only one-twelfth of the training data, demonstrating strong agentic reasoning capabilities.
- Abstract(参考訳): Knowledge Base Question Answering (KBQA) は、構造化知識ベース (KB) に関する自然言語質問に答えることを目的としている。
近年の作業は,大規模言語モデル(LLM)が質問を反復的に分解し,対応する論理的クエリを生成し,KBと対話して答えを導出する,エージェント推論パラダイムを採用することでKBQAを改善している。
しかし、これらの手法は典型的には、プロセスの監督によって合成された推論軌道に関する微調整のLSMであり、探索のインセンティブが弱く、従ってエージェント推論能力の強化に失敗する。
本稿では,KBに対するエージェント推論を自律的に行うLLMであるKnowCoder-A1を提案する。
KnowCoder-A1は、自律的な探索のインセンティブを得るために、多段階のカリキュラム強化学習を通じて結果のみの監督の下でLLMを訓練する。
基礎的エージェント能力を確立するために、KnowCoder-A1はまず、結果に基づく拒絶サンプリングによって得られる、少数の高品質な軌道上でLLMを微調整する。
そして、結果のみの監視に固有の報酬空間を緩和するために、報酬スケジュールが簡単から困難に進行する多段階のカリキュラムRLを適用する。
結果のみの監視でトレーニングされたKnowCoder-A1は、強力な推論動作を示し、3つのメインストリームデータセットで従来よりも一貫してパフォーマンスが向上している。
特に、GrailQAのゼロショットサブセットでは、KnowCoder-A1はトレーニングデータのわずか12分の1を使用しながら、11.1%の相対的な改善を実現し、強力なエージェント推論能力を示している。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models [0.0]
本稿では,新しい構造化推論手法であるAttentive Reasoning Queries (ARQs)を提案する。
ARQは、ドメイン特化推論ブループリントを通じて、大規模言語モデルにおける命令追跡を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-05T17:03:48Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。
KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。
KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。
CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文 参考訳(メタデータ) (2024-03-11T03:42:03Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - Question Answering over Knowledge Bases by Leveraging Semantic Parsing
and Neuro-Symbolic Reasoning [73.00049753292316]
本稿では,意味解析と推論に基づくニューロシンボリック質問回答システムを提案する。
NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-03T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。