論文の概要: The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored
Learning
- arxiv url: http://arxiv.org/abs/2301.06987v1
- Date: Tue, 17 Jan 2023 16:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:43:44.632890
- Title: The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored
Learning
- Title(参考訳): SwaNNFlight System: Anchored Learningによるオンザフライ・シム・トゥ・リアル適応
- Authors: Bassel El Mabsout, Shahin Roozkhosh, Siddharth Mysore, Kate Saenko,
Renato Mancuso
- Abstract要約: 私たちは、市販のハードウェアで作られた四脚のエージェントを訓練し、適応します。
SwaNNFlightは,エージェントの観察を無線で取得・転送できる,オープンソースのファームウェアである。
また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。
- 参考スコア(独自算出の注目度): 40.99371018933319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) agents trained in simulated environments and then
deployed in the real world are often sensitive to the differences in dynamics
presented, commonly termed the sim-to-real gap. With the goal of minimizing
this gap on resource-constrained embedded systems, we train and live-adapt
agents on quadrotors built from off-the-shelf hardware. In achieving this we
developed three novel contributions. (i) SwaNNFlight, an open-source firmware
enabling wireless data capture and transfer of agents' observations.
Fine-tuning agents with new data, and receiving and swapping onboard NN
controllers -- all while in flight. We also design SwaNNFlight System (SwaNNFS)
allowing new research in training and live-adapting learning agents on similar
systems. (ii) Multiplicative value composition, a technique for preserving the
importance of each policy optimization criterion, improving training
performance and variability in learnt behavior. And (iii) anchor critics to
help stabilize the fine-tuning of agents during sim-to-real transfer, online
learning from real data while retaining behavior optimized in simulation. We
train consistently flight-worthy control policies in simulation and deploy them
on real quadrotors. We then achieve live controller adaptation via over-the-air
updates of the onboard control policy from a ground station. Our results
indicate that live adaptation unlocks a near-50\% reduction in power
consumption, attributed to the sim-to-real gap. Finally, we tackle the issues
of catastrophic forgetting and controller instability, showing the
effectiveness of our novel methods.
Project Website: https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS
- Abstract(参考訳): シミュレーション環境で訓練され、現実世界にデプロイされた強化学習(rl)エージェントは、一般的にsim-to-real gapと呼ばれる、提示されるダイナミクスの違いに敏感であることが多い。
リソース制約のある組込みシステムにおいて、このギャップを最小化することを目的として、既製のハードウェアで構築された四角形上で、トレーニングおよび実動適応エージェントを訓練する。
これを達成するために、私たちは3つの新しい貢献をした。
(i)SwaNNFlight - エージェントの観察を無線で取得・転送できるオープンソースのファームウェア。
新しいデータと、NNコントローラーの受信と交換を行う微調整エージェントは、すべて飛行中です。
また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。
二 乗法価値構成、各政策最適化基準の重要性を保ち、学習行動における訓練性能及び変動性を改善する技術。
そして
(iii)シミュレーションに最適化された行動を維持しつつ、実データからオンライン学習を行う場合のエージェントの微調整の安定化を支援するアンカー評論家。
一貫して飛行可能な制御ポリシーをシミュレーションで訓練し、実際のクワッドローターに配置します。
次に,地上局からのオンボード制御ポリシーのオンザエア更新により,ライブコントローラ適応を実現する。
以上の結果から,ライブ適応によって電力消費が約50%削減される可能性が示唆された。
最後に,破滅的な忘れ込みと制御不能の問題に対処し,新しい手法の有効性を示す。
プロジェクトウェブサイト:https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - Finding Failures in High-Fidelity Simulation using Adaptive Stress
Testing and the Backward Algorithm [35.076062292062325]
適応ストレステスト(アダプティブストレステスト、英: Adaptive stress testing、AST)は、強化学習を用いてシステムの最も起こりそうな障害を見つける手法である。
深い強化学習の解法を持つASTは、様々なシステムにまたがる障害を見つけるのに有効であることが示されている。
効率を向上させるために,まず低忠実度シミュレータで故障を検知する手法を提案する。
次に、単一の専門家によるデモンストレーションを使用してディープニューラルネットワークポリシーをトレーニングするバックワードアルゴリズムを使用して、低忠実度障害を高忠実度に適応させる。
論文 参考訳(メタデータ) (2021-07-27T16:54:04Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。