論文の概要: Learning more with the same effort: how randomization improves the robustness of a robotic deep reinforcement learning agent
- arxiv url: http://arxiv.org/abs/2501.14443v1
- Date: Fri, 24 Jan 2025 12:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:16.617433
- Title: Learning more with the same effort: how randomization improves the robustness of a robotic deep reinforcement learning agent
- Title(参考訳): 同じ努力でさらに学習する:ロボット深部強化学習エージェントのロバスト性に及ぼすランダム化の効果
- Authors: Lucía Güitta-López, Jaime Boal, Álvaro J. López-López,
- Abstract要約: 本稿では、プログレッシブニューラルネットワーク(PNN)として知られる最先端のsim-to-real技術のロバスト性を分析する。
シミュレーションベースのトレーニング中の変数のランダム化は、この問題を著しく軽減する。
モデルの精度の上昇は、トレーニングプロセスで多様性が導入されたときの約25%である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The industrial application of Deep Reinforcement Learning (DRL) is frequently slowed down because of the inability to generate the experience required to train the models. Collecting data often involves considerable time and economic effort that is unaffordable in most cases. Fortunately, devices like robots can be trained with synthetic experience thanks to virtual environments. With this approach, the sample efficiency problems of artificial agents are mitigated, but another issue arises: the need for efficiently transferring the synthetic experience into the real world (sim-to-real). This paper analyzes the robustness of a state-of-the-art sim-to-real technique known as progressive neural networks (PNNs) and studies how adding diversity to the synthetic experience can complement it. To better understand the drivers that lead to a lack of robustness, the robotic agent is still tested in a virtual environment to ensure total control on the divergence between the simulated and real models. The results show that a PNN-like agent exhibits a substantial decrease in its robustness at the beginning of the real training phase. Randomizing certain variables during simulation-based training significantly mitigates this issue. On average, the increase in the model's accuracy is around 25% when diversity is introduced in the training process. This improvement can be translated into a decrease in the required real experience for the same final robustness performance. Notwithstanding, adding real experience to agents should still be beneficial regardless of the quality of the virtual experience fed into the agent.
- Abstract(参考訳): 深層強化学習(Dreep Reinforcement Learning, DRL)の産業的応用は、モデルのトレーニングに必要な経験を生成できないため、しばしば減速する。
データの収集には、多くの場合、十分な時間と経済的な努力が伴う。
幸いなことに、ロボットのようなデバイスは、仮想環境のおかげで、合成体験で訓練することができる。
このアプローチでは、人工エージェントのサンプル効率の問題は緩和されるが、別の問題が発生する。
本稿では、プログレッシブニューラルネットワーク(PNN)として知られる最先端のシム・トゥ・リアル技術が持つロバスト性を解析し、合成経験に多様性を加えることでそれを補完する方法について研究する。
堅牢性の欠如につながるドライバをよりよく理解するために、ロボットエージェントは、シミュレーションされたモデルと実際のモデルの間のばらつきの完全な制御を保証するために、まだ仮想環境でテストされている。
以上の結果から,PNN系エージェントは実訓練開始時の頑健さを著しく低下させることが明らかとなった。
シミュレーションベースのトレーニング中の変数のランダム化は、この問題を著しく軽減する。
トレーニングプロセスに多様性を導入すると、平均してモデルの精度が約25%向上する。
この改善は、同じ最終ロバスト性性能に必要な実体験の減少に変換できる。
それでも、エージェントに実際の体験を追加することは、エージェントに供給される仮想体験の品質に関わらず、依然として有益であるべきである。
関連論文リスト
- In-Simulation Testing of Deep Learning Vision Models in Autonomous Robotic Manipulators [11.389756788049944]
自律型ロボットマニピュレータのテストは、ビジョンとコントロールコンポーネント間の複雑なソフトウェアインタラクションのために難しい。
現代のロボットマニピュレータの重要な要素は、ディープラーニングに基づく物体検出モデルである。
本稿では,写真リアリスティックなNVIDIA Isaac Simシミュレータと進化探索を統合し,重要なシナリオを識別するMARTENSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T03:10:42Z) - VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Facilitating Sim-to-real by Intrinsic Stochasticity of Real-Time
Simulation in Reinforcement Learning for Robot Manipulation [1.6686307101054858]
市販シミュレーションソフトウェアにおけるリアルタイムシミュレーション(RT-IS)の本質性について検討する。
RT-ISは、ランダム化を少なくし、タスク依存ではなく、従来のドメインランダム化駆動エージェントよりも優れた一般化性を実現する。
論文 参考訳(メタデータ) (2023-04-12T12:15:31Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。