論文の概要: Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation
- arxiv url: http://arxiv.org/abs/2508.05154v1
- Date: Thu, 07 Aug 2025 08:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.768903
- Title: Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation
- Title(参考訳): 強化学習のためのドメイン駆動メトリクス:エージェント・ベース・シミュレーションを用いたエピデミック・コントロールの一事例
- Authors: Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan,
- Abstract要約: 本研究では、最先端のメトリクスを構築しながら、RLのためのドメイン駆動メトリクスを開発している。
結果は、いくつかの異なるシミュレーションシナリオにおいて、伝統的な、そして最先端のメトリクスと一緒にドメイン駆動の報酬を使うことを示しています。
- 参考スコア(独自算出の注目度): 0.29360071145551064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the development and optimization of agent-based models (ABMs) and rational agent-based models (RABMs), optimization algorithms such as reinforcement learning are extensively used. However, assessing the performance of RL-based ABMs and RABMS models is challenging due to the complexity and stochasticity of the modeled systems, and the lack of well-standardized metrics for comparing RL algorithms. In this study, we are developing domain-driven metrics for RL, while building on state-of-the-art metrics. We demonstrate our ``Domain-driven-RL-metrics'' using policy optimization on a rational ABM disease modeling case study to model masking behavior, vaccination, and lockdown in a pandemic. Our results show the use of domain-driven rewards in conjunction with traditional and state-of-the-art metrics for a few different simulation scenarios such as the differential availability of masks.
- Abstract(参考訳): エージェントベースモデル(ABM)と合理的エージェントベースモデル(RABM)の開発と最適化には、強化学習などの最適化アルゴリズムが広く用いられている。
しかしながら、RLに基づくAMMとRABMSモデルの性能評価は、モデル化されたシステムの複雑さと確率性、RLアルゴリズムを比較するための十分に標準化されたメトリクスの欠如により困難である。
本研究では、最先端のメトリクスを構築しながら、RLのためのドメイン駆動メトリクスを開発している。
そこで我々は,ABM 病モデルモデルを用いた政策最適化を用いた<Domain-driven-RL-metrics'を,マスク行動,ワクチン接種,パンデミックにおけるロックダウンをモデル化するためのケーススタディとして実証した。
本結果は,マスクの微分可利用性など,いくつかの異なるシミュレーションシナリオにおいて,従来および最先端の指標と合わせて,ドメイン駆動型報酬の利用を示す。
関連論文リスト
- From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。
モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文 参考訳(メタデータ) (2025-03-24T15:35:16Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,既存の経済非線形モデル予測制御(eNMPC)のケーススタディにおいて,他のトレーニングアルゴリズムと比較することにより,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Dynamic Noises of Multi-Agent Environments Can Improve Generalization:
Agent-based Models meets Reinforcement Learning [2.492300648514128]
エージェントベースモデル(ABM)に基づく強化学習環境の利点について検討する。
それらの非決定論的ダイナミクスは、RLエージェントの一般化を改善することができることを示す。
数値シミュレーションにより、SIRモデルの内在雑音は平均報酬を改善するだけでなく、より広い範囲の流行パラメータに基づいてRLエージェントを一般化できることを示した。
論文 参考訳(メタデータ) (2022-03-26T09:56:30Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Quantitatively Assessing the Benefits of Model-driven Development in
Agent-based Modeling and Simulation [80.49040344355431]
本稿では,MDD とABMS プラットフォームの利用状況と開発ミスについて比較する。
その結果、MDD4ABMSはNetLogoと類似した設計品質のシミュレーションを開発するのに、より少ない労力を必要とすることがわかった。
論文 参考訳(メタデータ) (2020-06-15T23:29:04Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。