Fugu-MT 論文翻訳(概要): Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning

論文の概要: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.06835v2
Date: Sun, 15 Oct 2023 01:14:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 02:26:50.674963
Title: Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning
Title（参考訳）: 強化学習のためのスケーラブルなセマンティック非マルコフシミュレーションプロキシ
Authors: Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo Shakarian, Clark Dorman
Abstract要約: 本稿では,アノテート論理に対する時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。学習した政策の質を保ちながら、最大3桁のスピードアップを示す。
参考スコア（独自算出の注目度）: 0.125828876338076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in reinforcement learning (RL) have shown much promise across a variety of applications. However, issues such as scalability, explainability, and Markovian assumptions limit its applicability in certain domains. We observe that many of these shortcomings emanate from the simulator as opposed to the RL training algorithms themselves. As such, we propose a semantic proxy for simulation based on a temporal extension to annotated logic. In comparison with two high-fidelity simulators, we show up to three orders of magnitude speed-up while preserving the quality of policy learned. In addition, we show the ability to model and leverage non-Markovian dynamics and instantaneous actions while providing an explainable trace describing the outcomes of the agent actions.
Abstract（参考訳）: 近年の強化学習(RL)の進歩は,様々な応用において大きな可能性を秘めている。しかしながら、スケーラビリティ、説明可能性、マルコフの仮定といった問題は、特定の領域での適用性を制限する。これらの欠点の多くは、RLトレーニングアルゴリズム自体とは対照的に、シミュレータから発せられる。そこで我々は,アノテーション付き論理への時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。 2つの高忠実度シミュレータと比較して、学習したポリシーの質を保ちながら、最大3桁のスピードアップを示す。さらに,非マルコフ力学や瞬時作用をモデル化し,活用する能力を示すとともに,エージェント動作の結果を説明するための説明可能なトレースを提供する。

関連論文リスト

AdaCred: Adaptive Causal Decision Transformers with Feature Crediting [11.54181863246064]
AdaCredは、短時間のアクション・リワード状態列から構築された因果グラフとして軌跡を表す新しいアプローチである。実験により,AdaCredをベースとしたポリシでは,より短い軌道列が必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
論文参考訳（メタデータ） (2024-12-19T22:22:37Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Re-Simulation-based Self-Supervised Learning for Pre-Training Foundation Models [1.1468680421853177]
自己監視学習(SSL)は、現代の大規模機械学習モデルのトレーニングの中核にある。シミュレーションに基づく新しいSSL戦略であるRS3L(Re-simulation-based self-supervised representation learning)を提案する。本稿では、RS3L事前学習が、様々な物体の識別や不確実性軽減といった下流タスクにおいて、強力な性能を実現する方法を示す。
論文参考訳（メタデータ） (2024-03-11T18:00:47Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report [45.123633153460034]
本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。提案手法は,シム・トゥ・シム・ジム・タスクやシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
論文参考訳（メタデータ） (2023-01-17T16:16:53Z)
Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-10-12T09:12:59Z)
Backpropagation through Time and Space: Learning Numerical Methods with Multi-Agent Reinforcement Learning [6.598324641949299]
強化学習(RL)における偏微分方程式に基づく数値スキームを部分観測可能なマルコフゲーム(OMG)として扱う。数値解法と同様に、エージェントは各離散位置において、効率的な一般化可能な学習のための計算空間として機能する。局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。
論文参考訳（メタデータ） (2022-03-16T20:50:24Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。 TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文参考訳（メタデータ） (2021-01-17T00:29:30Z)
Large-Scale Multi-Agent Deep FBSDEs [28.525065041507982]
架空のプレイを用いたマルチエージェントゲームにおいてマルコフ的ナッシュ平衡を求めるためのフレームワークを提案する。我々は,現在最先端のディープラーニングプレイアルゴリズムに対して,我々のフレームワークの優れた性能を示す。また,ロボット工学における我々のフレームワークの適用性を,信仰空間における自律レース問題に適用可能であることを実証する。
論文参考訳（メタデータ） (2020-11-21T23:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。