論文の概要: Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills
- arxiv url: http://arxiv.org/abs/2207.00978v1
- Date: Sun, 3 Jul 2022 08:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 10:56:21.028043
- Title: Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills
- Title(参考訳): renaissance robot: 多様なスキルを学ぶための最適な輸送政策融合
- Authors: Julia Tan, Ransalu Senanayake, Fabio Ramos
- Abstract要約: 最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 28.39150937658635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) is a promising approach to solving complex
robotics problems. However, the process of learning through trial-and-error
interactions is often highly time-consuming, despite recent advancements in RL
algorithms. Additionally, the success of RL is critically dependent on how well
the reward-shaping function suits the task, which is also time-consuming to
design. As agents trained on a variety of robotics problems continue to
proliferate, the ability to reuse their valuable learning for new domains
becomes increasingly significant. In this paper, we propose a post-hoc
technique for policy fusion using Optimal Transport theory as a robust means of
consolidating the knowledge of multiple agents that have been trained on
distinct scenarios. We further demonstrate that this provides an improved
weights initialisation of the neural network policy for learning new tasks,
requiring less time and computational resources than either retraining the
parent policies or training a new policy from scratch. Ultimately, our results
on diverse agents commonly used in deep RL show that specialised knowledge can
be unified into a "Renaissance agent", allowing for quicker learning of new
skills.
- Abstract(参考訳): deep reinforcement learning (rl) は複雑なロボット工学問題を解決するための有望なアプローチである。
しかし、RLアルゴリズムの最近の進歩にもかかわらず、試行錯誤による学習のプロセスは、しばしば非常に時間がかかる。
さらに、rlの成功は、報酬変換関数がいかにタスクに適合するかに決定的に依存しており、これも設計に時間がかかります。
さまざまなロボティクスの問題を訓練するエージェントが増加し続けており、新しいドメインに価値ある学習を再利用する能力はますます重要になっている。
本稿では、異なるシナリオで訓練された複数のエージェントの知識を集約する堅牢な手段として、最適輸送理論を用いた政策融合のポストホック手法を提案する。
さらに、これは新しいタスクを学習するためのニューラルネットワークポリシーの初期化を改善し、親ポリシーの再トレーニングや新しいポリシーをゼロからトレーニングするよりも、時間と計算リソースを少なくすることを示した。
最終的に, 深部RLでよく用いられる多種多様なエージェントについて, 専門知識を「ルネッサンスエージェント」に統合し, 新たなスキルの学習を迅速に行うことができた。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。