論文の概要: Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals
- arxiv url: http://arxiv.org/abs/2605.23384v1
- Date: Fri, 22 May 2026 08:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.270757
- Title: Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals
- Title(参考訳): リワードとしてのメタ認知:知識と規制信号によるLLM推論の強化
- Authors: Sirui Chen, Lei Xu, Yuying Zhao, Yutian Chen, Yu Wang, Beier Zhu, Hanwang Zhang, Shengjie Zhao, Chaochao Lu,
- Abstract要約: 本稿ではメタ認知に触発されたRLフレームワークであるメタ認知・アズ・リワード(MaR)を紹介する。
MaRは2つの一般的なプロセス次元を推論する。
MaRはモデル性能を継続的に改善し、ベースモデルよりも最大7.7%向上した。
- 参考スコア(独自算出の注目度): 75.25256166997414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent RL methods have substantially improved the reasoning abilities of LLMs. Existing reward designs mainly follow two paradigms: (1) Reinforcement learning with verifiable rewards (RLVR) derives outcome signals from executable checks or ground-truth answers, but provides limited guidance for intermediate reasoning behaviors. (2) Rubrics-as-reward (RaR) goes beyond final-answer checking by using natural-language rubrics to assess reasoning quality and task compliance, but often requires instance-specific rubrics and substantial design effort. To address these issues, we introduce Metacognition-as-Reward (MaR), a metacognition-inspired RL framework that guides LLM reasoning through two general process dimensions: i) metacognitive knowledge, which identifies task-relevant information without hand-crafted instance-specific rubrics, and ii) metacognitive regulation, which plans and adjusts the reasoning process to provide reward guidance beyond final-answer outcomes. MaR scaffolds model rollouts into explicit metacognitive components and optimizes them with a trajectory-level reward over task knowledge coverage, regulation fidelity, and final-answer correctness. In this way, MaR extends reward feedback to reasoning trajectories while grounding the reward signals in general metacognitive dimensions. Experiments on 22 benchmarks show that MaR consistently improves model performance, achieving up to a 7.7% gain over the base model and up to an 11.0% gain over vanilla DAPO. Notably, Qwen3.5-9B + MaR narrows the gap to frontier models, surpassing GPT-OSS-120B on overall average and outperforming stronger models on several individual benchmarks. Process-level analysis further shows substantial improvements in reasoning process quality. MaR also generalizes to out-of-domain datasets, where MaR-trained models improve over their corresponding base models on average.
- Abstract(参考訳): 近年のRL法はLLMの推論能力を大幅に改善した。
既存の報酬設計は,(1)検証可能な報酬(RLVR)を用いた強化学習(Reinforcement Learning)は,実行可能チェックから結果信号を導出するが,中間的推論行動に対する限定的なガイダンスを提供する。
2) ラブラクス・アズ・ア・リワード(RaR)は、推論品質とタスクコンプライアンスを評価するために自然言語のルーリックを用いて最終回答チェックを行うだけでなく、インスタンス固有のルーリックと実質的な設計作業を必要とすることが多い。
これらの問題に対処するために、メタ認知に触発されたRLフレームワークであるメタ認知・アズ・ア・リワード(MaR)を紹介します。
一 手作りのインスタンス固有のルーリックなしでタスク関連情報を識別するメタ認知知識
二 メタ認知的規制であって、最終回答結果以上の報酬指導を行うための推論プロセスを計画し、調整すること。
MaRの足場は、明確なメタ認知コンポーネントへのロールアウトをモデル化し、タスク知識のカバレッジ、規制の忠実さ、最終回答の正しさよりも、軌道レベルの報酬で最適化する。
このようにして、MaRは報奨フィードバックを拡張して、一般のメタ認知次元において報奨信号をグラウンド化しながら軌道を推論する。
22ベンチマークの実験では、MaRはモデル性能を一貫して改善し、ベースモデルよりも7.7%、バニラDAPOよりも11.0%向上した。
特に、Qwen3.5-9B + MaRはフロンティアモデルとのギャップを狭め、GPT-OSS-120Bを抜いて、複数のベンチマークでより強力なモデルを上回っている。
プロセスレベルの分析はさらに、推論プロセスの品質を大幅に改善したことを示している。
MaRはドメイン外のデータセットにも一般化されており、MaRでトレーニングされたモデルは、対応するベースモデルよりも平均的に改善されている。
関連論文リスト
- Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning [14.632557283678898]
検証可能なプロセスリワードモデル(VPRM)は、中間推論ステップを決定論的、ルールベースの検証によってチェックする強化学習フレームワークである。
医療エビデンス合成のためのリスク・オブ・バイアス評価にVPRMを適用した。
その結果、VPRMは最先端モデルよりも20%高いF1、検証可能な結果報酬より6.5%高いF1を達成することがわかった。
論文 参考訳(メタデータ) (2026-01-23T23:22:20Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。