論文の概要: Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World
- arxiv url: http://arxiv.org/abs/2311.12854v1
- Date: Mon, 23 Oct 2023 06:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:36:21.979503
- Title: Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World
- Title(参考訳): ロボットマニピュレーションの強化:メタワールドにおけるマルチタスク強化学習とシングルライフ強化学習の力の調和
- Authors: Ghadi Nehme, Ishan Sabane, Tejas Y. Deo
- Abstract要約: この研究プロジェクトは、ロボットアームがメタワールド環境内で7つの異なるタスクを実行できるようにする。
トレーニングされたモデルは、シングルライフRLアルゴリズムの事前データのソースとして機能する。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: At present, robots typically require extensive training to successfully
accomplish a single task. However, to truly enhance their usefulness in
real-world scenarios, robots should possess the capability to perform multiple
tasks effectively. To address this need, various multi-task reinforcement
learning (RL) algorithms have been developed, including multi-task proximal
policy optimization (PPO), multi-task trust region policy optimization (TRPO),
and multi-task soft-actor critic (SAC). Nevertheless, these algorithms
demonstrate optimal performance only when operating within an environment or
observation space that exhibits a similar distribution. In reality, such
conditions are often not the norm, as robots may encounter scenarios or
observations that differ from those on which they were trained. Addressing this
challenge, algorithms like Q-Weighted Adversarial Learning (QWALE) attempt to
tackle the issue by training the base algorithm (generating prior data) solely
for a particular task, rendering it unsuitable for generalization across tasks.
So, the aim of this research project is to enable a robotic arm to successfully
execute seven distinct tasks within the Meta World environment. To achieve
this, a multi-task soft actor-critic (MT-SAC) is employed to train the robotic
arm. Subsequently, the trained model will serve as a source of prior data for
the single-life RL algorithm. The effectiveness of this MT-QWALE algorithm will
be assessed by conducting tests on various target positions (novel positions).
In the end, a comparison is provided between the trained MT-SAC and the
MT-QWALE algorithm where the MT-QWALE performs better. An ablation study
demonstrates that MT-QWALE successfully completes tasks with a slightly larger
number of steps even after hiding the final goal position.
- Abstract(参考訳): 現在、ロボットは通常、1つのタスクを成功させるために広範なトレーニングを必要とする。
しかし、現実のシナリオで真に有用性を高めるためには、ロボットは複数のタスクを効率的に実行する能力を持つべきである。
このニーズに対処するために、マルチタスク近位ポリシー最適化(PPO)、マルチタスク信頼領域ポリシー最適化(TRPO)、マルチタスクソフトアクター批判(SAC)など、様々なマルチタスク強化学習(RL)アルゴリズムが開発されている。
しかしながら、これらのアルゴリズムは、同様の分布を示す環境や観測空間内でのみ最適な性能を示す。
実際には、ロボットが訓練されたものと異なるシナリオや観察に遭遇する可能性があるため、そのような条件は普通ではないことが多い。
この課題に対処するため、Q-Weighted Adversarial Learning (QWALE)のようなアルゴリズムは、特定のタスクに対してのみベースアルゴリズム(事前データを生成する)をトレーニングすることでこの問題に対処しようとする。
そこでこのプロジェクトの目的は、ロボットアームがメタワールド環境内で7つの異なるタスクをうまく実行できるようにすることである。
これを実現するために、ロボットアームの訓練にマルチタスクソフトアクタークリティカル(MT-SAC)が使用される。
その後、訓練されたモデルはsingle-life rlアルゴリズムの事前データソースとして機能する。
このMT-QWALEアルゴリズムの有効性は、様々な目標位置(ノーベル位置)での試験により評価される。
最後に、訓練されたMT-SACとMT-QWALEがよりよく動作するMT-QWALEアルゴリズムの比較を行う。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum
Learning Study [4.045850174820418]
本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。
挿入タスクのような位置制御ロボットによる複雑な産業組み立てタスクに対処する。
また,おもちゃのタスクを用いたシミュレーションでのみトレーニングを行う場合においても,現実のロボットに伝達可能なポリシーを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T11:08:39Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。