論文の概要: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.06835v1
- Date: Tue, 10 Oct 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:16:37.127898
- Title: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement
Learning
- Title(参考訳): 強化学習のためのスケーラブルなセマンティック非マルコフシミュレーションプロキシ
- Authors: Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo
Shakarian, Clark Dorman
- Abstract要約: 本稿では,アノテート論理に対する時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。
2つの高忠実度シミュレータと比較して、最大3桁のスピードアップを示す。
- 参考スコア(独自算出の注目度): 0.125828876338076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have shown much promise across
a variety of applications. However, issues such as scalability, explainability,
and Markovian assumptions limit its applicability in certain domains. We
observe that many of these shortcomings emanate from the simulator as opposed
to the RL training algorithms themselves. As such, we propose a semantic proxy
for simulation based on a temporal extension to annotated logic. In comparison
with two high-fidelity simulators, we show up to three orders of magnitude
speed-up while preserving the quality of policy learned in addition to showing
the ability to model and leverage non-Markovian dynamics and instantaneous
actions while providing an explainable trace describing the outcomes of the
agent actions.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は,様々な応用において大きな可能性を秘めている。
しかしながら、スケーラビリティ、説明可能性、マルコフの仮定といった問題は、特定の領域での適用性を制限する。
これらの欠点の多くは、RLトレーニングアルゴリズム自体とは対照的に、シミュレータから発せられる。
そこで我々は,アノテーション付き論理への時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。
2つの高忠実度シミュレータと比較して、学習したポリシーの質を保ちながら最大3桁のスピードアップを示すとともに、非マルコフ力学と即時行動のモデル化と活用能力を示し、エージェントアクションの結果を説明する説明可能なトレースを提供する。
関連論文リスト
- CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
本稿では,リアクティブかつ制御可能なトラフィックエージェントを効率的に生成するCtRL-Simを提案する。
我々はNocturneシミュレータを通して実世界の運転データを処理し、多様なオフライン強化学習データセットを生成する。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,多様かつ現実的な安全クリティカルシナリオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Backpropagation through Time and Space: Learning Numerical Methods with
Multi-Agent Reinforcement Learning [6.598324641949299]
強化学習(RL)における偏微分方程式に基づく数値スキームを部分観測可能なマルコフゲーム(OMG)として扱う。
数値解法と同様に、エージェントは各離散位置において、効率的な一般化可能な学習のための計算空間として機能する。
局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。
論文 参考訳(メタデータ) (2022-03-16T20:50:24Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Social NCE: Contrastive Learning of Socially-aware Motion
Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。
本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文 参考訳(メタデータ) (2020-12-21T22:25:06Z) - Large-Scale Multi-Agent Deep FBSDEs [28.525065041507982]
架空のプレイを用いたマルチエージェントゲームにおいてマルコフ的ナッシュ平衡を求めるためのフレームワークを提案する。
我々は,現在最先端のディープラーニングプレイアルゴリズムに対して,我々のフレームワークの優れた性能を示す。
また,ロボット工学における我々のフレームワークの適用性を,信仰空間における自律レース問題に適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-11-21T23:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。