論文の概要: DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2511.08364v1
- Date: Wed, 12 Nov 2025 01:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.780483
- Title: DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering
- Title(参考訳): DPRM:マルチホップ質問応答におけるデュアルインシシデントプロセスリワードモデル
- Authors: Xinyi Wang, Yiping Song, Zhiliang Tian, Bo Liu, Tingjin Luo, Minlie Huang,
- Abstract要約: 質問応答タスクでは、Chain of Thought (CoT) は多段階推論を通じて大きな言語モデルを誘導し、知識グラフ (KG) は意味マッチングによる幻覚を減らす。
従来のプロセスリワードモデル(PRM)は推論プロセスを評価するが、コストのかかる人的アノテーションやロールアウト生成を必要とする。
DPRM(Dual Implicit Process Reward Model)は,MHQAタスクにおける2つの暗黙のPRMをCoTとKGの推論のために訓練する。
- 参考スコア(独自算出の注目度): 62.11407895095892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-hop question answering (MHQA) tasks, Chain of Thought (CoT) improves the quality of generation by guiding large language models (LLMs) through multi-step reasoning, and Knowledge Graphs (KGs) reduce hallucinations via semantic matching. Outcome Reward Models (ORMs) provide feedback after generating the final answers but fail to evaluate the process for multi-step reasoning. Traditional Process Reward Models (PRMs) evaluate the reasoning process but require costly human annotations or rollout generation. While implicit PRM is trained only with outcome signals and derives step rewards through reward parameterization without explicit annotations, it is more suitable for multi-step reasoning in MHQA tasks. However, existing implicit PRM has only been explored for plain text scenarios. When adapting to MHQA tasks, it cannot handle the graph structure constraints in KGs and capture the potential inconsistency between CoT and KG paths. To address these limitations, we propose the DPRM (Dual Implicit Process Reward Model). It trains two implicit PRMs for CoT and KG reasoning in MHQA tasks. Both PRMs, namely KG-PRM and CoT-PRM, derive step-level rewards from outcome signals via reward parameterization without additional explicit annotations. Among them, KG-PRM uses preference pairs to learn structural constraints from KGs. DPRM further introduces a consistency constraint between CoT and KG reasoning steps, making the two PRMs mutually verify and collaboratively optimize the reasoning paths. We also provide a theoretical demonstration of the derivation of process rewards. Experimental results show that our method outperforms 13 baselines on multiple datasets with up to 16.6% improvement on Hit@1.
- Abstract(参考訳): マルチホップ質問応答(MHQA)タスクにおいて、Chain of Thought(CoT)は、多段階推論によって大きな言語モデル(LLM)を誘導することで生成の品質を向上し、知識グラフ(KG)はセマンティックマッチングによって幻覚を減少させる。
Outcome Reward Models(ORM)は、最終回答を生成した後、フィードバックを提供するが、マルチステップ推論のプロセスの評価に失敗する。
従来のプロセスリワードモデル(PRM)は推論プロセスを評価するが、コストのかかる人的アノテーションやロールアウト生成を必要とする。
暗黙的なPRMは結果信号のみで訓練され、明示的なアノテーションなしで報酬パラメータ化によってステップ報酬を導出するが、MHQAタスクの多段階推論にはより適している。
しかし、既存の暗黙のPRMは、平易なテキストシナリオに対してのみ探索されている。
MHQAタスクに適応すると、KGのグラフ構造制約を処理できなくなり、CoTパスとKGパス間の潜在的な不整合を捕捉する。
これらの制約に対処するため,DPRM(Dual Implicit Process Reward Model)を提案する。
MHQAタスクでは、2つの暗黙のPRMをCoTとKG推論のために訓練する。
PRM、すなわちKG-PRMとCoT-PRMはどちらも、追加の明示的なアノテーションなしで報酬パラメータ化を通じて結果信号から段階レベルの報酬を導き出す。
このうち、KG-PRMは好みのペアを使ってKGから構造的制約を学習する。
DPRMはさらに、CoTとKGの推論ステップ間の一貫性の制約を導入し、2つのPRMを相互に検証し、推論パスを協調的に最適化する。
プロセス報酬の導出に関する理論的実証も提供する。
実験の結果,Hit@1では最大16.6%の改善が得られた。
関連論文リスト
- Exploring Generative Process Reward Modeling for Semi-Structured Data: A Case Study of Table Question Answering [14.119525003137356]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)における複雑な推論を改善する。
本研究は,テーブル質問応答(TQA)のためのPRMに関する最初の体系的研究である。
回答とステップの両面から,TQAにおける最先端のPRMを評価した。
論文 参考訳(メタデータ) (2025-10-23T07:49:39Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - Process Reward Models That Think [85.06022494911811]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [46.75272311751018]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。