論文の概要: A Multifidelity Sim-to-Real Pipeline for Verifiable and Compositional
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.01249v1
- Date: Sat, 2 Dec 2023 23:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:17:04.526727
- Title: A Multifidelity Sim-to-Real Pipeline for Verifiable and Compositional
Reinforcement Learning
- Title(参考訳): 検証および構成強化学習のためのマルチフィデアルsim-to-realパイプライン
- Authors: Cyrus Neary, Christian Ellis, Aryaman Singh Samyal, Craig Lennon, Ufuk
Topcu
- Abstract要約: 本稿では,強化学習システムの訓練と検証のための構成的枠組みを提案し,実証する。
複雑なロボットタスクをコンポーネントサブタスクに分解することで、フレームワークは対応するサブタスクポリシーの独立したトレーニングとテストを可能にする。
実験ケーススタディでは、Warthog無人地上ロボットの操縦を成功させる構成的RLシステムの訓練と展開に、このフレームワークを適用した。
- 参考スコア(独自算出の注目度): 18.42455580047624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and demonstrate a compositional framework for training and
verifying reinforcement learning (RL) systems within a multifidelity
sim-to-real pipeline, in order to deploy reliable and adaptable RL policies on
physical hardware. By decomposing complex robotic tasks into component subtasks
and defining mathematical interfaces between them, the framework allows for the
independent training and testing of the corresponding subtask policies, while
simultaneously providing guarantees on the overall behavior that results from
their composition. By verifying the performance of these subtask policies using
a multifidelity simulation pipeline, the framework not only allows for
efficient RL training, but also for a refinement of the subtasks and their
interfaces in response to challenges arising from discrepancies between
simulation and reality. In an experimental case study we apply the framework to
train and deploy a compositional RL system that successfully pilots a Warthog
unmanned ground robot.
- Abstract(参考訳): 物理ハードウェアに信頼性と適応性のあるRLポリシーをデプロイするために,多忠実なsim-to-realパイプライン内で強化学習システム(RL)を訓練し,検証するための構成的枠組みを提案し,実証する。
複雑なロボットタスクをコンポーネントのサブタスクに分解し、それらの間の数学的インターフェースを定義することにより、フレームワークは対応するサブタスクポリシーの独立したトレーニングとテストを可能にし、同時に構成から生じる全体的な振る舞いの保証を提供する。
マルチフィデリティシミュレーションパイプラインを使用して、これらのサブタスクポリシーのパフォーマンスを検証することにより、フレームワークは効率的なrlトレーニングを可能にするだけでなく、シミュレーションと現実の相違から生じる課題に対応して、サブタスクとそのインターフェースを洗練することができる。
実験ケーススタディでは、Warthog無人地上ロボットの操縦を成功させる構成的RLシステムの訓練と展開にフレームワークを適用した。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Resilient Control of Networked Microgrids using Vertical Federated
Reinforcement Learning: Designs and Real-Time Test-Bed Validations [5.394255369988441]
本稿では、(a)モデル複雑度、(b)ISRデバイスの未知の動的挙動、(b)マルチパーティ所有のネットワークグリッドにおけるデータ共有に関するプライバシー問題、(2)シミュレーションからハードウェア・イン・ザ・ループテストベッドへの学習制御の移行について、新しいフェデレーション強化学習(Fed-RL)アプローチを提案する。
実験により,シミュレータ学習したRLコントローラは実時間テストベッドのセットアップによる説得力のある結果が得られ,sim-to-realギャップの最小化が検証された。
論文 参考訳(メタデータ) (2023-11-21T00:59:27Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。