論文の概要: Pedagogical Safety in Educational Reinforcement Learning: Formalizing and Detecting Reward Hacking in AI Tutoring Systems
- arxiv url: http://arxiv.org/abs/2604.04237v1
- Date: Sun, 05 Apr 2026 19:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.999167
- Title: Pedagogical Safety in Educational Reinforcement Learning: Formalizing and Detecting Reward Hacking in AI Tutoring Systems
- Title(参考訳): 教育強化学習における教育的安全--AI学習システムにおけるリワードハッキングの形式化と検出
- Authors: Oluseyi Olukola, Nick Rahimi,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、知的学習システムにおける指導のパーソナライズにますます用いられる。
本稿では,構造,進歩,行動,アライメントの安全性を含む教育用RLの4層モデルを提案する。
我々は,4つの条件と3つの学習者プロファイルに120のセッションがあり,合計18,000のインタラクションがあるAI学習環境の制御されたシミュレーションにおいて,このフレームワークを評価する。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is increasingly used to personalize instruction in intelligent tutoring systems, yet the field lacks a formal framework for defining and evaluating pedagogical safety. We introduce a four-layer model of pedagogical safety for educational RL comprising structural, progress, behavioral, and alignment safety and propose the Reward Hacking Severity Index (RHSI) to quantify misalignment between proxy rewards and genuine learning. We evaluate the framework in a controlled simulation of an AI tutoring environment with 120 sessions across four conditions and three learner profiles, totaling 18{,}000 interactions. Results show that an engagement-optimized agent systematically over-selected a high-engagement action with no direct mastery gain, producing strong measured performance but limited learning progress. A multi-objective reward formulation reduced this problem but did not eliminate it, as the agent continued to favor proxy-rewarding behavior in many states. In contrast, a constrained architecture combining prerequisite enforcement and minimum cognitive demand substantially reduced reward hacking, lowering RHSI from 0.317 in the unconstrained multi-objective condition to 0.102. Ablation results further suggest that behavioral safety was the most influential safeguard against repetitive low-value action selection. These findings suggest that reward design alone may be insufficient to ensure pedagogically aligned behavior in educational RL, at least in the simulated environment studied here. More broadly, the paper positions pedagogical safety as an important research problem at the intersection of AI safety and intelligent educational systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、知的学習システムにおける指導のパーソナライズに益々用いられているが、教育的安全性を定義し評価するための形式的な枠組みが欠如している。
本稿では、構造的、進歩的、行動的、アライメント的安全性を含む教育RLのための教育的安全性の4層モデルを紹介し、プロキシ報酬と真の学習のミスアライメントを定量化するためのReward Hacking Severity Index(RHSI)を提案する。
このフレームワークは,4つの条件と3つの学習者プロファイルの合計18{,}000のインタラクションで,120セッションのAI学習環境を制御したシミュレーションで評価する。
その結果, エンゲージメント最適化エージェントは, 直接的熟達を伴わない高エンゲージメント動作を体系的に過剰に選択し, 高い測定性能を示したが, 学習の進歩は限定的であった。
多目的報酬の定式化はこの問題を減らしたが、エージェントが多くの州でプロキシ・リワードの行動を支持し続けたため、それを排除しなかった。
対照的に、事前の強制と最小限の認知要求を組み合わせた制約されたアーキテクチャは報酬のハッキングを著しく減らし、制約のない多目的条件のRHSIを0.317から0.102に下げた。
アブレーションの結果,行動安全が反復的低価値行動選択に対する最も影響力のある保護であったことが示唆された。
これらの結果から, 報酬設計だけでは教育的RLにおいて, 少なくともシミュレーション環境では, 教育的整合性を確保するには不十分である可能性が示唆された。
より広範に、この論文は、AIの安全性とインテリジェントな教育システムの交差点における重要な研究課題として、教育安全を位置づけている。
関連論文リスト
- SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems [28.55608350602746]
SafeTutorsは、数学、物理学、化学における安全性と教育を共同で評価するベンチマークである。
スケールは確実に役に立ちませんし、マルチターンダイアログは振る舞いを悪化させ、教育上の失敗は17.7%から77.8%に上昇します。
ハームは主題によっても異なるため、緩和は規律を意識する必要があり、シングルターンの"セーフ/ヘルパフル"の結果は、拡張された相互作用よりも体系的な家庭教師の失敗を隠蔽することができる。
論文 参考訳(メタデータ) (2026-03-18T05:33:50Z) - Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers [8.123835490773095]
職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
論文 参考訳(メタデータ) (2025-11-10T09:42:24Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach [1.0488553716155147]
本研究では,深部強化学習(DRL)におけるロボットシミュレーションに安全性制約を取り入れた新しい手法を提案する。
このフレームワークは、速度制約のような安全要件の特定の部分をDRLモデルに直接統合する。
提案手法は,テストシナリオの平均成功率を16.5%向上させる。
論文 参考訳(メタデータ) (2024-07-02T12:56:17Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。