論文の概要: Equivariant Reinforcement Learning for Quadrotor UAV
- arxiv url: http://arxiv.org/abs/2206.01233v1
- Date: Thu, 2 Jun 2022 18:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 15:27:04.496864
- Title: Equivariant Reinforcement Learning for Quadrotor UAV
- Title(参考訳): 準動翼UAVにおける等変強化学習
- Authors: Beomyeol Yu and Taeyoung Lee
- Abstract要約: 本稿では, 四輪無人航空機の同変強化学習フレームワークを提案する。
本研究では,訓練に必要な状態の次元を1つ減らし,強化学習のサンプリング効率を大幅に向上させるように,四元子力学の等価性を同定する。
- 参考スコア(独自算出の注目度): 0.9065034043031664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an equivariant reinforcement learning framework for
quadrotor unmanned aerial vehicles. Successful training of reinforcement
learning often requires numerous interactions with the environments, which
hinders its applicability especially when the available computational resources
are limited, or when there is no reliable simulation model. We identified an
equivariance property of the quadrotor dynamics such that the dimension of the
state required in the training is reduced by one, thereby improving the
sampling efficiency of reinforcement learning substantially. This is
illustrated by numerical examples with popular reinforcement learning
techniques of TD3 and SAC.
- Abstract(参考訳): 本稿では,四角形無人航空機のための等変強化学習フレームワークを提案する。
強化学習の成功には環境との多くの相互作用が必要であり、特に利用可能な計算資源が限られている場合や、信頼できるシミュレーションモデルがない場合、その適用を妨げている。
本研究では,トレーニングに必要な状態の次元を1つ減らすことにより,強化学習のサンプリング効率が大幅に向上するように,四進数力学の等分散特性を同定した。
これはTD3とSACの一般的な強化学習手法の数値例で示される。
関連論文リスト
- VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Low-level Pose Control of Tilting Multirotor for Wall Perching Tasks
Using Reinforcement Learning [2.5903488573278284]
実世界の応用において,傾き型マルチロータを制御するための新しい強化学習手法を提案する。
提案手法は,傾斜マルチロータの複雑な力学を克服し,頑健な制御性を示す。
論文 参考訳(メタデータ) (2021-08-11T21:39:51Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。