論文の概要: The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored
Learning
- arxiv url: http://arxiv.org/abs/2301.06987v1
- Date: Tue, 17 Jan 2023 16:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:43:44.632890
- Title: The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored
Learning
- Title(参考訳): SwaNNFlight System: Anchored Learningによるオンザフライ・シム・トゥ・リアル適応
- Authors: Bassel El Mabsout, Shahin Roozkhosh, Siddharth Mysore, Kate Saenko,
Renato Mancuso
- Abstract要約: 私たちは、市販のハードウェアで作られた四脚のエージェントを訓練し、適応します。
SwaNNFlightは,エージェントの観察を無線で取得・転送できる,オープンソースのファームウェアである。
また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。
- 参考スコア(独自算出の注目度): 40.99371018933319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) agents trained in simulated environments and then
deployed in the real world are often sensitive to the differences in dynamics
presented, commonly termed the sim-to-real gap. With the goal of minimizing
this gap on resource-constrained embedded systems, we train and live-adapt
agents on quadrotors built from off-the-shelf hardware. In achieving this we
developed three novel contributions. (i) SwaNNFlight, an open-source firmware
enabling wireless data capture and transfer of agents' observations.
Fine-tuning agents with new data, and receiving and swapping onboard NN
controllers -- all while in flight. We also design SwaNNFlight System (SwaNNFS)
allowing new research in training and live-adapting learning agents on similar
systems. (ii) Multiplicative value composition, a technique for preserving the
importance of each policy optimization criterion, improving training
performance and variability in learnt behavior. And (iii) anchor critics to
help stabilize the fine-tuning of agents during sim-to-real transfer, online
learning from real data while retaining behavior optimized in simulation. We
train consistently flight-worthy control policies in simulation and deploy them
on real quadrotors. We then achieve live controller adaptation via over-the-air
updates of the onboard control policy from a ground station. Our results
indicate that live adaptation unlocks a near-50\% reduction in power
consumption, attributed to the sim-to-real gap. Finally, we tackle the issues
of catastrophic forgetting and controller instability, showing the
effectiveness of our novel methods.
Project Website: https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS
- Abstract(参考訳): シミュレーション環境で訓練され、現実世界にデプロイされた強化学習(rl)エージェントは、一般的にsim-to-real gapと呼ばれる、提示されるダイナミクスの違いに敏感であることが多い。
リソース制約のある組込みシステムにおいて、このギャップを最小化することを目的として、既製のハードウェアで構築された四角形上で、トレーニングおよび実動適応エージェントを訓練する。
これを達成するために、私たちは3つの新しい貢献をした。
(i)SwaNNFlight - エージェントの観察を無線で取得・転送できるオープンソースのファームウェア。
新しいデータと、NNコントローラーの受信と交換を行う微調整エージェントは、すべて飛行中です。
また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。
二 乗法価値構成、各政策最適化基準の重要性を保ち、学習行動における訓練性能及び変動性を改善する技術。
そして
(iii)シミュレーションに最適化された行動を維持しつつ、実データからオンライン学習を行う場合のエージェントの微調整の安定化を支援するアンカー評論家。
一貫して飛行可能な制御ポリシーをシミュレーションで訓練し、実際のクワッドローターに配置します。
次に,地上局からのオンボード制御ポリシーのオンザエア更新により,ライブコントローラ適応を実現する。
以上の結果から,ライブ適応によって電力消費が約50%削減される可能性が示唆された。
最後に,破滅的な忘れ込みと制御不能の問題に対処し,新しい手法の有効性を示す。
プロジェクトウェブサイト:https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS
関連論文リスト
- Learning to Fly in Seconds [8.159171440455824]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Resilient Control of Networked Microgrids using Vertical Federated
Reinforcement Learning: Designs and Real-Time Test-Bed Validations [5.394255369988441]
本稿では、(a)モデル複雑度、(b)ISRデバイスの未知の動的挙動、(b)マルチパーティ所有のネットワークグリッドにおけるデータ共有に関するプライバシー問題、(2)シミュレーションからハードウェア・イン・ザ・ループテストベッドへの学習制御の移行について、新しいフェデレーション強化学習(Fed-RL)アプローチを提案する。
実験により,シミュレータ学習したRLコントローラは実時間テストベッドのセットアップによる説得力のある結果が得られ,sim-to-realギャップの最小化が検証された。
論文 参考訳(メタデータ) (2023-11-21T00:59:27Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Off-policy Learning for Remote Electrical Tilt Optimization [68.8204255655161]
本稿では,オフポリティクス型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の課題に対処する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
当社のポリシでは,データ収集に使用されるルールベースのロギングポリシに対して,一貫した改善が示されています。
論文 参考訳(メタデータ) (2020-05-21T11:30:31Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。