論文の概要: Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning
- arxiv url: http://arxiv.org/abs/2511.18000v1
- Date: Sat, 22 Nov 2025 10:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.577694
- Title: Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning
- Title(参考訳): 空間エピデミックシミュレーションのためのリワードエンジニアリング:個人行動学習のための強化学習プラットフォーム
- Authors: Radman Rakhshandehroo, Daniel Coombs,
- Abstract要約: 本稿では,Gymnasium互換強化学習プラットフォームであるContagionRLについて述べる。
我々のプラットフォームは、様々な流行シナリオにおいて、報酬関数設計が学習した生存戦略にどのように影響するかを厳格に評価することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present ContagionRL, a Gymnasium-compatible reinforcement learning platform specifically designed for systematic reward engineering in spatial epidemic simulations. Unlike traditional agent-based models that rely on fixed behavioral rules, our platform enables rigorous evaluation of how reward function design affects learned survival strategies across diverse epidemic scenarios. ContagionRL integrates a spatial SIRS+D epidemiological model with configurable environmental parameters, allowing researchers to stress-test reward functions under varying conditions including limited observability, different movement patterns, and heterogeneous population dynamics. We evaluate five distinct reward designs, ranging from sparse survival bonuses to a novel potential field approach, across multiple RL algorithms (PPO, SAC, A2C). Through systematic ablation studies, we identify that directional guidance and explicit adherence incentives are critical components for robust policy learning. Our comprehensive evaluation across varying infection rates, grid sizes, visibility constraints, and movement patterns reveals that reward function choice dramatically impacts agent behavior and survival outcomes. Agents trained with our potential field reward consistently achieve superior performance, learning maximal adherence to non-pharmaceutical interventions while developing sophisticated spatial avoidance strategies. The platform's modular design enables systematic exploration of reward-behavior relationships, addressing a knowledge gap in models of this type where reward engineering has received limited attention. ContagionRL is an effective platform for studying adaptive behavioral responses in epidemic contexts and highlight the importance of reward design, information structure, and environmental predictability in learning.
- Abstract(参考訳): 本稿では,空間流行シミュレーションにおける系統的な報酬工学を目的とした,体育館互換の強化学習プラットフォームであるContagionRLを提案する。
固定行動規則に依存する従来のエージェントベースモデルとは異なり、当社のプラットフォームは、報酬関数設計が多様な流行シナリオにおける学習生存戦略にどのように影響するかを厳格に評価することができる。
ContagionRLは、空間SIRS+D疫学モデルと設定可能な環境パラメータを統合し、限られた観測可能性、異なる運動パターン、異種集団動態を含む様々な条件下での報酬関数のストレステストを可能にする。
複数のRLアルゴリズム(PPO, SAC, A2C)にまたがって, サバイバルボーナスから新たなフィールドアプローチまで, 5つの異なる報酬設計を評価した。
組織的アブレーション研究を通じて、方向性指導と明示的な順応インセンティブが、堅牢な政策学習にとって重要な要素であることを同定する。
各種感染率, グリッドサイズ, 可視性制約, 運動パターンを総合的に評価した結果, 報酬関数の選択がエージェントの行動と生存率に劇的な影響を及ぼすことが明らかとなった。
フィールド報酬を訓練したエージェントは、常に優れたパフォーマンスを達成し、高度な空間回避戦略を開発しながら、非医薬品の介入に対する最大限の順守を学習する。
このプラットフォームのモジュラー設計は、報酬-行動関係の体系的な探索を可能にし、報酬工学が注目を集めているこのタイプのモデルの知識ギャップに対処する。
ContagionRLは、流行状況における適応的行動応答を研究するための効果的なプラットフォームであり、学習における報酬設計、情報構造、環境予測可能性の重要性を強調している。
関連論文リスト
- Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。
このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。
このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文 参考訳(メタデータ) (2025-10-24T15:56:40Z) - Social World Model-Augmented Mechanism Design Policy Learning [58.739456918502704]
SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-10-22T06:01:21Z) - Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in Open-Ended Environments [1.6576957162725725]
神経科学と倫理学のツールを応用し、新しい、複雑で部分的に観察可能な環境でDRLエージェントを研究する。
我々はこの環境をエージェントに共同行動分析とニューラル分析を適用するためのプラットフォームとして利用する。
一般的な仮定とは対照的に、モデルのないRNNベースのDRLエージェントは、構造化された計画的な振る舞いを示すことができる。
論文 参考訳(メタデータ) (2025-06-08T03:43:48Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。
ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。
そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文 参考訳(メタデータ) (2025-02-14T10:59:09Z) - A Foundational Brain Dynamics Model via Stochastic Optimal Control [15.8358479596609]
最適制御(SOC)と償却推論を利用する脳力学の基礎モデルを提案する。
本手法は,fMRI信号の複雑なノイズ特性を頑健に扱える連続離散状態空間モデル(SSM)を特徴とする。
我々のモデルは、人口統計予測、形質分析、疾患診断、予後など、さまざまな下流課題において最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:57:26Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Amortized Active Causal Induction with Deep Reinforcement Learning [20.74277346825603]
Causal Amortized Active Structure Learning (CAASL) は、適応的でリアルタイムで、可能性へのアクセスを必要としない介入を選択できるアクティブな介入設計ポリシーである。
このポリシーは,設計環境シミュレータ上での強化学習と,収集したデータから推定した因果グラフの後部への真の因果グラフの接近度を測定する報奨関数を用いて訓練される。
論文 参考訳(メタデータ) (2024-05-26T23:14:37Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。