論文の概要: MC-CPO: Mastery-Conditioned Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.04251v1
- Date: Sun, 05 Apr 2026 20:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.006542
- Title: MC-CPO: Mastery-Conditioned Constrained Policy Optimization
- Title(参考訳): MC-CPO:Mastery-Conditioned Constrained Policy Optimization
- Authors: Oluseyi Olukola, Nick Rahimi,
- Abstract要約: エンゲージメント最適化適応学習システムは、持続的な学習結果よりも短期的な行動信号を優先することができる。
本稿では,構造的行動マスキングと制約付きポリシー最適化を統合した2段階の原始双対アルゴリズムであるMastery-Conditioned Constrained Policy Optimization (MC-CPO)を紹介する。
10個のランダムシードと100万のトレーニングステップで、MC-CPOは許容範囲内の制約予算を満たし、制約のない、報酬型のベースラインに対する安全性コストを低減し、Reward Hacking Severity Index(RHSI)を大幅に低下させる。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Engagement-optimized adaptive tutoring systems may prioritize short-term behavioral signals over sustained learning outcomes, creating structural incentives for reward hacking in reinforcement learning policies. We formalize this challenge as a constrained Markov decision process (CMDP) with mastery-conditioned feasibility, in which pedagogical safety constraints dynamically restrict admissible actions according to learner mastery and prerequisite structure. We introduce Mastery-Conditioned Constrained Policy Optimization (MC-CPO), a two-timescale primal-dual algorithm that integrates structural action masking with constrained policy optimization. In the tabular regime, we establish feasibility preservation and convergence to stationary feasible points under standard stochastic approximation conditions and derive a safety gap result showing that optimization within the mastery-conditioned feasible set can strictly dominate post-hoc filtering under identical safety budgets. Empirical validation is conducted in minimal and extended tabular environments and in a neural tutoring setting. Across 10 random seeds and one million training steps in the neural regime, MC-CPO satisfies constraint budgets within tolerance, reduces discounted safety costs relative to unconstrained and reward-shaped baselines, and substantially lowers the Reward Hacking Severity Index (RHSI). These results indicate that embedding pedagogical structure directly into the feasible action space provides a principled foundation for mitigating reward hacking in instructional reinforcement learning systems.
- Abstract(参考訳): エンゲージメント最適化適応学習システムは、持続的な学習結果よりも短期的な行動シグナルを優先し、強化学習政策における報酬ハッキングのための構造的なインセンティブを生み出す可能性がある。
我々は,この課題を,学習者の熟達と前提条件構造に応じて動的に許容可能な行動を制限する,熟達条件付き実現可能性を備えた制約付きマルコフ決定プロセス(CMDP)として定式化する。
本稿では,構造的行動マスキングと制約付きポリシー最適化を統合した2段階の原始双対アルゴリズムであるMastery-Conditioned Constrained Policy Optimization (MC-CPO)を紹介する。
表構造では, 標準確率近似条件下での定常可能点の可観測性と収束性を確立し, マスター条件付きファジブルセット内における最適化が, 同一の安全予算下でのポストホックフィルタリングを厳密に支配可能であることを示す安全ギャップを導出する。
実験的な検証は、最小限で拡張された表の環境と、ニューラルネットワークのチューター設定で行われる。
10個のランダムシードと100万のトレーニングステップで、MC-CPOは許容範囲内の制約予算を満たし、制約のない、報酬型のベースラインに対する割引された安全コストを削減し、Reward Hacking Severity Index(RHSI)を大幅に低下させる。
これらの結果は,教育強化学習システムにおいて,教育的構造を直接実行可能な行動空間に組み込むことが,報酬ハッキングを緩和するための基本となることを示唆している。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning [9.62939764063531]
制約強化学習(Constrained Reinforcement Learning)は、事前定義された制約制約に固執しながら、リターンを最大化することを目的としている。
継続的なコントロール設定では、報酬と制約満足度のトレードオフは依然として大きな課題です。
我々は、報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入し、制約境界内に留まる。
論文 参考訳(メタデータ) (2025-09-11T07:33:35Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。