論文の概要: Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation
- arxiv url: http://arxiv.org/abs/2308.16471v4
- Date: Sun, 02 Mar 2025 16:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:03:53.896891
- Title: Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation
- Title(参考訳): モータースキル生成のためのマルチタスク学習による基礎的政策獲得
- Authors: Satoshi Yamamori, Jun Morimoto,
- Abstract要約: 本稿では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
人間の感覚運動適応機構にインスパイアされた我々は,エンコーダデコーダネットワークとネットワーク選択を構築するための学習パイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.9668407688201356
- License:
- Abstract: In this study, we propose a multitask reinforcement learning algorithm for foundational policy acquisition to generate novel motor skills. \textcolor{\hcolor}{Learning the rich representation of the multitask policy is a challenge in dynamic movement generation tasks because the policy needs to cope with changes in goals or environments with different reward functions or physical parameters. Inspired by human sensorimotor adaptation mechanisms, we developed the learning pipeline to construct the encoder-decoder networks and network selection to facilitate foundational policy acquisition under multiple situations. First, we compared the proposed method with previous multitask reinforcement learning methods in the standard multi-locomotion tasks. The results showed that the proposed approach outperformed the baseline methods. Then, we applied the proposed method to the ball heading task using a monopod robot model to evaluate skill generation performance. The results showed that the proposed method was able to adapt to novel target positions or inexperienced ball restitution coefficients but to acquire a foundational policy network, originally learned for heading motion, which can generate an entirely new overhead kicking skill.
- Abstract(参考訳): 本研究では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
\textcolor{\hcolor}{Learning the rich representation of the multitask policy is a challenge for dynamic movement generation tasks because the policy need to handle with change in goal or environment with different reward function or physical parameters。
ヒトの感覚運動適応機構に触発されて,エンコーダ・デコーダネットワークとネットワーク選択を構築する学習パイプラインを開発し,複数の状況下での基本的なポリシー獲得を容易にする。
まず,提案手法を従来のマルチタスク強化学習法と比較した。
その結果,提案手法はベースライン法よりも優れていた。
そこで,提案手法をモノポッドロボットモデルを用いてボール誘導タスクに適用し,性能評価を行った。
提案手法は, 新規な目標位置や未経験球再構成係数に適応できるが, 元々は方向決め動作を学習した基本方針ネットワークを習得し, 全く新しい頭上蹴りスキルを創出できることを示した。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control [7.227887302864789]
本稿では,CMS-PRLを提案する。
まず、基本的なモータ報酬と相互情報報酬を組み合わせた融合報酬機構を導入する。
第2に,基底神経節の運動プログラムにインスパイアされたスキルエンコーディング手法を設計し,リッチかつ継続的なスキル指導を提供する。
第3に,運動能力の制御のためのスキルアクティビティ機能を提案する。
論文 参考訳(メタデータ) (2023-11-14T00:49:12Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning [17.903462188570067]
トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
論文 参考訳(メタデータ) (2021-06-24T02:13:50Z) - An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic
Manipulation with Pybullet [38.8947981067233]
この作業は、商用のMujocoエンジンをベースとしたOpenAI Gymマルチゴールロボット操作環境を、オープンソースのPybulletエンジンに再実装する。
ユーザーは、ジョイントコントロールモード、画像観察、ゴールにカスタマイズ可能なカメラと内蔵のカメラでアクセスできる新しいAPIをユーザーに提供します。
また,多段階・多ゴール・長水平・スパース報酬のロボット操作タスクのセットを設計し,これらの課題に対する新たな目標条件強化学習アルゴリズムの創出を目指す。
論文 参考訳(メタデータ) (2021-05-12T21:58:57Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。