Fugu-MT 論文翻訳(概要): SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models

論文の概要: SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models

arxiv url: http://arxiv.org/abs/2310.12494v2
Date: Thu, 22 Aug 2024 21:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 20:18:44.228375
Title: SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models
Title（参考訳）: SDGym:システムダイナミクスモデルを用いた低コード強化学習環境
Authors: Emmanuel Klu, Sameer Sethi, DJ Passey, Donald Martin Jr,
Abstract要約: SDGymはOpenAI Gymフレームワーク上に構築されたローコードライブラリで、カスタムRL環境の生成を可能にする。本稿では,電気自動車導入問題のSDモデルを用いて,SDGym環境の性能を実証する。 SDGymをオープンソース化することで、さらなる研究を活性化し、SDおよびRLコミュニティ全体での採用を促進することを目指している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the long-term impact of algorithmic interventions on society is vital to achieving responsible AI. Traditional evaluation strategies often fall short due to the complex, adaptive and dynamic nature of society. While reinforcement learning (RL) can be a powerful approach for optimizing decisions in dynamic settings, the difficulty of realistic environment design remains a barrier to building robust agents that perform well in practical settings. To address this issue we tap into the field of system dynamics (SD) as a complementary method that incorporates collaborative simulation model specification practices. We introduce SDGym, a low-code library built on the OpenAI Gym framework which enables the generation of custom RL environments based on SD simulation models. Through a feasibility study we validate that well specified, rich RL environments can be generated from preexisting SD models and a few lines of configuration code. We demonstrate the capabilities of the SDGym environment using an SD model of the electric vehicle adoption problem. We compare two SD simulators, PySD and BPTK-Py for parity, and train a D4PG agent using the Acme framework to showcase learning and environment interaction. Our preliminary findings underscore the dual potential of SD to improve RL environment design and for RL to improve dynamic policy discovery within SD models. By open-sourcing SDGym, the intent is to galvanize further research and promote adoption across the SD and RL communities, thereby catalyzing collaboration in this emerging interdisciplinary space.
Abstract（参考訳）: 社会に対するアルゴリズム介入の長期的な影響を理解することは、責任あるAIを達成するために不可欠である。伝統的な評価戦略は、しばしば社会の複雑で適応的で動的な性質のために不足する。強化学習(RL)は動的設定における決定を最適化するための強力なアプローチであるが、現実的な環境設計の難しさは、実用的な設定でうまく機能する堅牢なエージェントを構築する上での障壁である。この問題に対処するため、協調シミュレーションモデル仕様を取り入れた補完手法として、システムダイナミクス(SD)の分野に取り組みました。 SDシミュレーションモデルに基づくカスタムRL環境の生成を可能にする,OpenAI Gymフレームワーク上に構築されたローコードライブラリであるSDGymを紹介する。実現可能性調査を通じて、既存のSDモデルと数行の構成コードから、明確に定義されたリッチなRL環境を生成できることを検証する。本稿では,電気自動車導入問題のSDモデルを用いて,SDGym環境の性能を実証する。我々は,PySDとBPTK-Pyの2つのSDシミュレータを比較し,Acmeフレームワークを用いてD4PGエージェントを訓練し,学習と環境相互作用を示す。予備的な知見は,RL環境設計を改善するためのSDの2つの可能性と,SDモデル内の動的ポリシー発見を改善するためのRLの2つの可能性を強調した。 SDGymをオープンソースにすることで、さらなる研究を活性化し、SDおよびRLコミュニティにおける採用を促進することを目的としている。

関連論文リスト

Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文参考訳（メタデータ） (2025-07-24T20:32:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文参考訳（メタデータ） (2024-11-07T06:27:12Z)
Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。 DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文参考訳（メタデータ） (2024-10-31T07:28:22Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文参考訳（メタデータ） (2023-10-26T15:47:51Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Environment Transformer and Policy Optimization for Model-Based Offline Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文参考訳（メタデータ） (2023-03-07T11:26:09Z)
Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文参考訳（メタデータ） (2021-07-29T07:35:13Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Sim-Env: Decoupling OpenAI Gym Environments from Simulation Models [0.0]
強化学習(RL)は、AI研究の最も活発な分野の1つです。開発方法論はまだ遅れており、RLアプリケーションの開発を促進するための標準APIが不足している。多目的エージェントベースのモデルと派生した単一目的強化学習環境の分離開発と保守のためのワークフローとツールを提示する。
論文参考訳（メタデータ） (2021-02-19T09:25:21Z)
Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文参考訳（メタデータ） (2020-11-16T08:24:34Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。