論文の概要: SCPRM: A Schema-aware Cumulative Process Reward Model for Knowledge Graph Question Answering
- arxiv url: http://arxiv.org/abs/2605.02819v1
- Date: Mon, 04 May 2026 16:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.420121
- Title: SCPRM: A Schema-aware Cumulative Process Reward Model for Knowledge Graph Question Answering
- Title(参考訳): SCPRM:知識グラフ質問応答のためのスキーマ対応累積プロセスリワードモデル
- Authors: Jiujiu Chen, Yazheng Liu, Sihong Xie, Hui Xiong,
- Abstract要約: 大規模な言語モデルは複雑な推論において優れているが、その中間ステップを評価することは難しい。
SCPRMは推論プレフィックスを条件付けすることで推論経路を評価する。
SCPRM-MCTSはHits@kのパフォーマンスを、強いベースラインよりも平均1.18%向上させる。
- 参考スコア(独自算出の注目度): 22.83259436157509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at complex reasoning, yet evaluating their intermediate steps remains challenging. Although process reward models provide step-wise supervision, they often suffer from a risk compensation effect, where incorrect steps are offset by later correct ones, assigning high rewards to flawed reasoning paths. This issue is further exacerbated in knowledge graph (KG) reasoning, as there may exist multiple paths between the start and end entities in the KGs, and a risky step can make the reasoning path flawed. Those limitations are problematic in risk-sensitive tasks such as medical and legal KG reasoning. To address the issues, we propose a Schema-aware Cumulative Process Reward Model (SCPRM) that evaluates reasoning paths by conditioning on the reasoning prefix , and incorporating schema distance between current reasoning step and the implicit target parsed from the query, which provides cumulative and future rewards to guide the path explorations. We further integrate SCPRM into Monte Carlo Tree Search (MCTS) as SCPRM-MCTS to conduct multi-hop reasoning on KGs for question answering (QA) tasks. Across medical and legal KGQA and CWQ, SCPRM-MCTS improves the performance of Hits@k by an average of 1.18% over strong baselines, demonstrating more accurate and risk-sensitive reasoning evaluation.
- Abstract(参考訳): 大規模な言語モデルは複雑な推論において優れているが、その中間ステップを評価することは難しい。
プロセス報酬モデルは段階的な監視を提供するが、しばしばリスク補償効果に悩まされ、不正確なステップは後の正しいステップによってオフセットされ、欠陥のある推論パスに高い報酬を割り当てる。
この問題は知識グラフ(KG)の推論においてさらに悪化しており、KGの始点と終点の間に複数の経路が存在する可能性があり、リスクの高いステップによって推論経路に欠陥が生じる可能性がある。
これらの制限は、医療や法的KG推論のようなリスクに敏感なタスクにおいて問題となる。
問題に対処するため,提案手法は推論プレフィックスを条件付けして推論経路を評価し,現在の推論ステップとクエリから解析された暗黙的ターゲットとのスキーマ距離を組み込んだSCPRM (Schema-Aware Cumulative Process Reward Model) を提案する。
我々はさらにSCPRMをモンテカルロ木探索 (MCTS) に統合し、質問応答 (QA) タスクのためにKG上でマルチホップ推論を行う。
医療および法的なKGQAとCWQ全体で、SCPRM-MCTSはHits@kのパフォーマンスを、強いベースラインよりも平均1.18%向上させ、より正確でリスクに敏感な推論評価を示す。
関連論文リスト
- DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering [62.11407895095892]
質問応答タスクでは、Chain of Thought (CoT) は多段階推論を通じて大きな言語モデルを誘導し、知識グラフ (KG) は意味マッチングによる幻覚を減らす。
従来のプロセスリワードモデル(PRM)は推論プロセスを評価するが、コストのかかる人的アノテーションやロールアウト生成を必要とする。
DPRM(Dual Implicit Process Reward Model)は,MHQAタスクにおける2つの暗黙のPRMをCoTとKGの推論のために訓練する。
論文 参考訳(メタデータ) (2025-11-11T15:41:22Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning [30.302863491794543]
Process Reward Models (PRM) は、最終回答に向けてステップバイステップの推論を導くことを目的としている。
既存のPRMは、ステップ間の依存関係をキャプチャしたり、プロセスの報酬を最終的な結果と整合させるのに失敗します。
本稿では,時間的プロセスとして推論をフレーム化して正解を導く条件付きリワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-09-30T17:38:45Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction [5.518813485456855]
外部推論システムは、言語モデルとプロセス報酬モデル(PRM)を組み合わせて、複雑なタスクのための高品質な推論パスを選択する。
これらのシステムはハッキングに報いる傾向があり、高いスコアが与えられるが、論理的に正しくないパスは、PRMによって高いスコアが割り当てられ、誤った答えが導かれる。
推論経路の真の報酬を推定することにより、報酬ハッキングを緩和する手法であるCausal Reward Adjustment (CRA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T08:48:55Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。