論文の概要: A Policy Adaptation Method for Implicit Multitask Reinforcement Learning Problems
- arxiv url: http://arxiv.org/abs/2308.16471v2
- Date: Sat, 20 Apr 2024 16:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:52:28.769001
- Title: A Policy Adaptation Method for Implicit Multitask Reinforcement Learning Problems
- Title(参考訳): 暗黙のマルチタスク強化学習問題に対するポリシー適応法
- Authors: Satoshi Yamamori, Jun Morimoto,
- Abstract要約: 動的モーション生成タスクでは、ポリシーパラメータの小さな変更は、非常に異なるリターンをもたらす可能性がある。
目標や環境の暗黙的な変化にポリシーを適用するためのマルチタスク強化学習アルゴリズムを提案する。
提案手法はゴール位置の暗黙的な変化やボールの再生係数に適応できることを示す。
- 参考スコア(独自算出の注目度): 0.9668407688201356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dynamic motion generation tasks, including contact and collisions, small changes in policy parameters can lead to extremely different returns. For example, in soccer, the ball can fly in completely different directions with a similar heading motion by slightly changing the hitting position or the force applied to the ball or when the friction of the ball varies. However, it is difficult to imagine that completely different skills are needed for heading a ball in different directions. In this study, we proposed a multitask reinforcement learning algorithm for adapting a policy to implicit changes in goals or environments in a single motion category with different reward functions or physical parameters of the environment. We evaluated the proposed method on the ball heading task using a monopod robot model. The results showed that the proposed method can adapt to implicit changes in the goal positions or the coefficients of restitution of the ball, whereas the standard domain randomization approach cannot cope with different task settings.
- Abstract(参考訳): 接触や衝突を含む動的運動生成タスクでは、ポリシーパラメータの小さな変化は、非常に異なるリターンをもたらす。
例えば、サッカーでは、打球の位置や力がわずかに変化したり、ボールの摩擦が変化した場合に、ボールは同様の方向の動きで完全に異なる方向に飛べる。
しかし、異なる方向にボールを向くためには、全く異なるスキルが必要であると想像することは困難である。
本研究では,異なる報酬関数や環境パラメータを持つ単一動作カテゴリにおいて,目標や環境の暗黙的な変化にポリシーを適用するためのマルチタスク強化学習アルゴリズムを提案する。
単足ロボットモデルを用いて,ボール誘導作業における提案手法の評価を行った。
その結果,提案手法はゴール位置の暗黙的な変化やボールの再生係数に適応できるが,標準領域のランダム化手法では異なるタスク設定に対処できないことがわかった。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control [7.227887302864789]
本稿では,CMS-PRLを提案する。
まず、基本的なモータ報酬と相互情報報酬を組み合わせた融合報酬機構を導入する。
第2に,基底神経節の運動プログラムにインスパイアされたスキルエンコーディング手法を設計し,リッチかつ継続的なスキル指導を提供する。
第3に,運動能力の制御のためのスキルアクティビティ機能を提案する。
論文 参考訳(メタデータ) (2023-11-14T00:49:12Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning [17.903462188570067]
トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
論文 参考訳(メタデータ) (2021-06-24T02:13:50Z) - An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic
Manipulation with Pybullet [38.8947981067233]
この作業は、商用のMujocoエンジンをベースとしたOpenAI Gymマルチゴールロボット操作環境を、オープンソースのPybulletエンジンに再実装する。
ユーザーは、ジョイントコントロールモード、画像観察、ゴールにカスタマイズ可能なカメラと内蔵のカメラでアクセスできる新しいAPIをユーザーに提供します。
また,多段階・多ゴール・長水平・スパース報酬のロボット操作タスクのセットを設計し,これらの課題に対する新たな目標条件強化学習アルゴリズムの創出を目指す。
論文 参考訳(メタデータ) (2021-05-12T21:58:57Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。