論文の概要: Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization
- arxiv url: http://arxiv.org/abs/2011.04282v1
- Date: Mon, 9 Nov 2020 09:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:34:07.037025
- Title: Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization
- Title(参考訳): リワード条件付きニューラルムーブメントプリミティブによる人口変動政策最適化
- Authors: M.Tuluhan Akbulut, Utku Bozdogan, Ahmet Tekden and Emre Ugur
- Abstract要約: 本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
- 参考スコア(独自算出の注目度): 4.559353193715442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this paper is to study the reward based policy exploration problem
in a supervised learning approach and enable robots to form complex movement
trajectories in challenging reward settings and search spaces. For this, the
experience of the robot, which can be bootstrapped from demonstrated
trajectories, is used to train a novel Neural Processes-based deep network that
samples from its latent space and generates the required trajectories given
desired rewards. Our framework can generate progressively improved trajectories
by sampling them from high reward landscapes, increasing the reward gradually.
Variational inference is used to create a stochastic latent space to sample
varying trajectories in generating population of trajectories given target
rewards. We benefit from Evolutionary Strategies and propose a novel crossover
operation, which is applied in the self-organized latent space of the
individual policies, allowing blending of the individuals that might address
different factors in the reward function. Using a number of tasks that require
sequential reaching to multiple points or passing through gaps between objects,
we showed that our method provides stable learning progress and significant
sample efficiency compared to a number of state-of-the-art robotic
reinforcement learning methods. Finally, we show the real-world suitability of
our method through real robot execution involving obstacle avoidance.
- Abstract(参考訳): 本研究の目的は,教師付き学習手法における報酬に基づく政策探索問題の検討と,ロボットが報酬設定や検索空間に挑戦する複雑な行動軌跡を形成できるようにすることである。
この目的のために、実証された軌道からブートストラップできるこのロボットの経験は、ニューラルネットワークベースの新しいディープネットワークを訓練するために使われ、その潜在空間からサンプルを採取し、必要な軌道を生成する。
我々のフレームワークは、高い報酬景観からそれらをサンプリングすることで、徐々に改善された軌道を生成することができる。
変分推論は確率的潜在空間を作成し、様々な軌道をサンプリングし、目的の報酬を与えられた軌道の集団を生成する。
我々は進化的戦略の恩恵を受け、個別政策の自己組織的潜在空間に適用される新たなクロスオーバー操作を提案し、報酬関数の異なる要因に対処する個人をブレンドできるようにする。
本研究では,複数の点に逐次到達するか,オブジェクト間のギャップを通過する必要があるタスクを多数使用することにより,ロボット強化学習法に比べて,安定した学習進捗と有意なサンプル効率が得られた。
最後に,障害物回避を伴う実ロボットの実行を通して,本手法の現実的適合性を示す。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Evolutionary Swarm Robotics: Dynamic Subgoal-Based Path Formation and
Task Allocation for Exploration and Navigation in Unknown Environments [0.0]
本稿では、視覚的に接続されたサブゴールを利用して、2つの異なる場所間の経路を確立するサブゴールベースのパス形成手法を提案する。
本論文は,経路形成に携わる多数のロボット同士の協調(交通)の問題に対処するものであり,これはサブゴール方式の性能に悪影響を及ぼす。
ローカル通信プロトコルと光信号に基づく通信を活用するタスク割り当て戦略を提案する。
論文 参考訳(メタデータ) (2023-12-27T15:13:56Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - Reaching Through Latent Space: From Joint Statistics to Path Planning in
Manipulation [26.38185646091712]
本稿では,ロボットマニピュレータのための経路計画手法を提案する。
経路は、ロボットのポーズ生成モデルの潜在空間における反復的最適化によって生成される。
我々のモデルはランダムにサンプリングされたロボットのポーズに基づいてタスク非依存で訓練されている。
論文 参考訳(メタデータ) (2022-10-21T07:25:21Z) - E2R: a Hierarchical-Learning inspired Novelty-Search method to generate diverse repertoires of grasping trajectories [0.0]
プラットフォームに依存しない方法で軌道を把握できる大規模なデータセットを生成できるNSベースの新しい手法を提案する。
階層的な学習パラダイムにインスパイアされた我々の手法は、行動空間をより滑らかにするためにアプローチと理解を分離する。
3つの異なるロボットグルーパーのセットアップといくつかの標準オブジェクトによる実験により,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:13:10Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。