論文の概要: Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments
- arxiv url: http://arxiv.org/abs/2106.10365v2
- Date: Tue, 28 Mar 2023 20:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 19:30:13.604746
- Title: Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments
- Title(参考訳): Scenic4RL:強化学習環境のモデリングと生成
- Authors: Abdus Salam Azad, Edward Kim, Qiancheng Wu, Kimin Lee, Ion Stoica,
Pieter Abbeel, and Sanjit A. Seshia
- Abstract要約: リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
- 参考スコア(独自算出の注目度): 89.04823188871906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capability of a reinforcement learning (RL) agent heavily depends on the
diversity of the learning scenarios generated by the environment. Generation of
diverse realistic scenarios is challenging for real-time strategy (RTS)
environments. The RTS environments are characterized by intelligent
entities/non-RL agents cooperating and competing with the RL agents with large
state and action spaces over a long period of time, resulting in an infinite
space of feasible, but not necessarily realistic, scenarios involving complex
interaction among different RL and non-RL agents. Yet, most of the existing
simulators rely on randomly generating the environments based on predefined
settings/layouts and offer limited flexibility and control over the environment
dynamics for researchers to generate diverse, realistic scenarios as per their
demand. To address this issue, for the first time, we formally introduce the
benefits of adopting an existing formal scenario specification language,
SCENIC, to assist researchers to model and generate diverse scenarios in an RTS
environment in a flexible, systematic, and programmatic manner. To showcase the
benefits, we interfaced SCENIC to an existing RTS environment Google Research
Football(GRF) simulator and introduced a benchmark consisting of 32 realistic
scenarios, encoded in SCENIC, to train RL agents and testing their
generalization capabilities. We also show how researchers/RL practitioners can
incorporate their domain knowledge to expedite the training process by
intuitively modeling stochastic programmatic policies with SCENIC.
- Abstract(参考訳): 強化学習エージェント(RL)の能力は、環境によって生成される学習シナリオの多様性に大きく依存する。
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
RTS環境は、知的実体/非RLエージェントが長い時間にわたってRLエージェントと協力し、大きな状態とアクション空間と競合することで特徴づけられ、結果として、RLエージェントと非RLエージェントの間で複雑な相互作用を伴う無限の現実的空間が生まれる。
しかし、既存のシミュレータのほとんどは、事前定義された設定/レイアウトに基づいて環境をランダムに生成することに依存しており、研究者が要求に応じて多様で現実的なシナリオを生成するために、環境ダイナミクスの柔軟性と制御が限定されている。
この問題に対処するために,我々は,rts環境における多様なシナリオを柔軟かつ体系的かつプログラム的にモデル化・生成するための,既存の形式的シナリオ仕様言語であるsportableの採用の利点を初めて正式に紹介する。
この利点を示すために、SCENICを既存のRTS環境であるGoogle Research Football(GRF)シミュレータにインターフェースし、SCENICでエンコードされた32の現実シナリオからなるベンチマークを導入し、RLエージェントのトレーニングと一般化機能のテストを行った。
また、SCENICを用いて確率的プログラムポリシーを直感的にモデル化することにより、研究者やRL実践者がドメイン知識を組み込んでトレーニングプロセスの迅速化を図る方法を示す。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - RealGen: Retrieval Augmented Generation for Controllable Traffic Scenarios [58.62407014256686]
RealGenは、トラフィックシナリオ生成のための新しい検索ベースのコンテキスト内学習フレームワークである。
RealGenは、複数の検索されたサンプルの振る舞いを勾配のない方法で組み合わせることで、新しいシナリオを合成する。
このコンテキスト内学習フレームワークは、シナリオを編集する機能を含む多種多様な生成機能を提供する。
論文 参考訳(メタデータ) (2023-12-19T23:11:06Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Sim2real for Reinforcement Learning Driven Next Generation Networks [4.29590751118341]
Reinforcement Learning (RL) モデルは、RAN関連多目的最適化問題の解決の鍵と見なされている。
主な理由の1つはシミュレーションと実環境の間のモデリングギャップであり、RLエージェントは実環境に不適合なシミュレーションによって訓練される可能性がある。
この記事では、Open RAN(O-RAN)のコンテキストにおけるsim2realチャレンジについて述べます。
実環境におけるシミュレーション訓練されたRLモデルの障害モードを実証し、実証するために、いくつかのユースケースが提示される。
論文 参考訳(メタデータ) (2022-06-08T12:40:24Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - CyGIL: A Cyber Gym for Training Autonomous Agents over Emulated Network
Systems [3.2550963598419957]
CyGILは、ネットワークサイバー操作のためのエミュレートされたRLトレーニング環境の実験ベッドである。
ステートレスな環境アーキテクチャを使用し、MITRE ATT&CKフレームワークを組み込んで、高品質なトレーニング環境を確立する。
その包括的なアクションスペースとフレキシブルなゲームデザインにより、エージェントトレーニングは特定の高度な永続脅威(APT)プロファイルに集中することができる。
論文 参考訳(メタデータ) (2021-09-07T20:52:44Z) - The AI Arena: A Framework for Distributed Multi-Agent Reinforcement
Learning [0.3437656066916039]
分散マルチエージェント強化学習のための柔軟な抽象化を備えたスケーラブルなフレームワークであるAI Arenaを紹介します。
複数の異なる学習環境において、一般的なRL技術よりも分散マルチエージェント学習アプローチによる性能向上を示す。
論文 参考訳(メタデータ) (2021-03-09T22:16:19Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。