論文の概要: Evolutionary Reinforcement Learning based AI tutor for Socratic Interdisciplinary Instruction
- arxiv url: http://arxiv.org/abs/2512.11930v1
- Date: Fri, 12 Dec 2025 02:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.031327
- Title: Evolutionary Reinforcement Learning based AI tutor for Socratic Interdisciplinary Instruction
- Title(参考訳): 進化的強化学習に基づくソクラテス的学際教育のためのAI家庭教師
- Authors: Mei Jiang, Haihai Shen, Zhuo Luo, Bingdong Li, Wenjing Hong, Ke Tang, Aimin Zhou,
- Abstract要約: 本稿では,この領域に適した進化強化学習(ERL)フレームワークであるERL4SIIPを提案する。
ERL4SIIPは,(1)潜時状態モデリングのためのSTEM知識グラフに基礎を置く動的学生シミュレータ,(2)長距離目標を高密度信号に分解する階層的リワード機構,(3)LoRA-Divisionに基づく最適化戦略を統合する。
- 参考スコア(独自算出の注目度): 21.65910532497379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cultivating higher-order cognitive abilities -- such as knowledge integration, critical thinking, and creativity -- in modern STEM education necessitates a pedagogical shift from passive knowledge transmission to active Socratic construction. Although Large Language Models (LLMs) hold promise for STEM Interdisciplinary education, current methodologies employing Prompt Engineering (PE), Supervised Fine-tuning (SFT), or standard Reinforcement Learning (RL) often fall short of supporting this paradigm. Existing methods are hindered by three fundamental challenges: the inability to dynamically model latent student cognitive states; severe reward sparsity and delay inherent in long-term educational goals; and a tendency toward policy collapse lacking strategic diversity due to reliance on behavioral cloning. Recognizing the unobservability and dynamic complexity of these interactions, we formalize the Socratic Interdisciplinary Instructional Problem (SIIP) as a structured Partially Observable Markov Decision Process (POMDP), demanding simultaneous global exploration and fine-grained policy refinement. To this end, we propose ERL4SIIP, a novel Evolutionary Reinforcement Learning (ERL) framework specifically tailored for this domain. ERL4SIIP integrates: (1) a dynamic student simulator grounded in a STEM knowledge graph for latent state modeling; (2) a Hierarchical Reward Mechanism that decomposes long-horizon goals into dense signals; and (3) a LoRA-Division based optimization strategy coupling evolutionary algorithms for population-level global search with PPO for local gradient ascent.
- Abstract(参考訳): 現代のSTEM教育において、知識統合、批判的思考、創造性などの高次の認知能力を育成するには、受動的知識伝達から活発なソクラテス建築への教育的シフトが必要である。
大規模言語モデル(LLM)は、STEMの学際的教育を約束するが、現在の手法では、Pmpt Engineering(PE)、Supervised Fine-tuning(SFT)、あるいは標準強化学習(RL)は、このパラダイムをサポートするには不十分であることが多い。
既存の方法は、潜在学生の認知状態を動的にモデル化できないこと、長期教育目標に固有の厳格な報酬空間と遅延、行動クローンに依存して戦略的な多様性を欠く政策崩壊傾向の3つの基本的な課題によって妨げられている。
これらの相互作用の観測不能性と動的複雑さを認識し、我々は、ソクラティック学際的教育問題(SIIP)を構造化された部分観測可能なマルコフ決定プロセス(POMDP)として定式化し、同時にグローバルな探索と詳細な政策改善を要求する。
そこで本研究では,この領域に適した進化強化学習(ERL)フレームワークであるERL4SIIPを提案する。
ERL4SIIPは,(1)潜伏状態モデリングのためのSTEM知識グラフに基礎を置く動的学生シミュレータ,(2)長距離目標を高密度信号に分解する階層的リワード機構,(3)局所勾配上昇のためのPPOを用いた人口レベルのグローバルサーチのためのLoRA-Divisionに基づく最適化戦略と進化的アルゴリズムを統合する。
関連論文リスト
- From Educational Analytics to AI Governance: Transferable Lessons from Complex Systems Interventions [0.0]
我々は、CAPIRE内で開発された5つのコア原則が、AIシステム管理の課題に直接移行すると主張している。
どちらの領域も非線形性、出現、フィードバックループ、戦略的適応、経路依存を示す。
我々は、これらの原則を規制設計のために運用する統合フレームワークとして、複合システムAIガバナンス(CSAIG)を提案する。
論文 参考訳(メタデータ) (2025-12-15T12:16:57Z) - CogEvo-Edu: Cognitive Evolution Educational Multi-Agent Collaborative System [5.006101181794508]
我々は、検索、記憶、制御は協調した認知進化過程として扱うべきであると主張している。
階層型教育マルチエージェントシステムであるCogEvo-Eduで、この見解をインスタンス化する。
CogEvo-Eduはスコアを5.32から9.23に引き上げ、静的RAG、単純なメモリ、単一エージェントの変種で6つの指標をすべて改善した。
論文 参考訳(メタデータ) (2025-11-29T05:41:57Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - An Intelligent Fault Self-Healing Mechanism for Cloud AI Systems via Integration of Large Language Models and Deep Reinforcement Learning [1.1149781202731994]
大規模言語モデル(LLM)と深層強化学習(DRL)を統合したインテリジェントフォールト自己修復機構(IFSHM)を提案する。
IFSHMは,クラウドAIシステムにおけるセマンティック理解とポリシ最適化機能を備えた障害復旧フレームワークの実現を目的としている。
クラウドフォールトインジェクションプラットフォームの実験的結果は、既存のDRLとルールメソッドと比較して、IFSHMフレームワークが未知の障害シナリオでシステムリカバリ時間を37%短縮することを示している。
論文 参考訳(メタデータ) (2025-06-09T04:14:05Z) - Synthesizing Evolving Symbolic Representations for Autonomous Systems [2.4233709516962785]
本稿では,その経験をスクラッチからPDDL表現に合成し,時間とともに更新できるオープンエンド学習システムを提案する。
a)選択肢を発見する、(b)選択肢を使って環境を探索する、(c)収集した知識を抽象化する、(d)計画。
論文 参考訳(メタデータ) (2024-09-18T07:23:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。