論文の概要: On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2001.07973v2
- Date: Fri, 29 May 2020 13:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:57:55.842112
- Title: On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning
- Title(参考訳): 行動に基づく強化学習のためのシンプルなリアクティブニューラルネットワークについて
- Authors: Ameya Pore and Gerardo Aragon-Camarasa
- Abstract要約: 本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a behaviour-based reinforcement learning approach, inspired by
Brook's subsumption architecture, in which simple fully connected networks are
trained as reactive behaviours. Our working assumption is that a pick and place
robotic task can be simplified by leveraging domain knowledge of a robotics
developer to decompose and train such reactive behaviours; namely, approach,
grasp, and retract. Then the robot autonomously learns how to combine them via
an Actor-Critic architecture. The Actor-Critic policy is to determine the
activation and inhibition mechanisms of the reactive behaviours in a particular
temporal sequence. We validate our approach in a simulated robot environment
where the task is picking a block and taking it to a target position while
orienting the gripper from a top grasp. The latter represents an extra
degree-of-freedom of which current end-to-end reinforcement learning fail to
generalise. Our findings suggest that robotic learning can be more effective if
each behaviour is learnt in isolation and then combined them to accomplish the
task. That is, our approach learns the pick and place task in 8,000 episodes,
which represents a drastic reduction in the number of training episodes
required by an end-to-end approach and the existing state-of-the-art
algorithms.
- Abstract(参考訳): brookの仮定アーキテクチャにインスパイアされた振る舞いベースの強化学習アプローチでは,完全接続ネットワークをリアクティブな振る舞いとしてトレーニングする。
私たちの作業前提は、ロボット開発者のドメイン知識を活用して、そのようなリアクティブな振る舞い、すなわちアプローチ、把握、リトラクションを分解し、トレーニングすることで、ピック&プレースロボットタスクを単純化できる、ということです。
そしてロボットは、アクター-批判的なアーキテクチャでそれらを組み合わせる方法を自律的に学習する。
Actor-Criticポリシーは、特定の時間配列における反応性行動の活性化と抑制機構を決定することである。
我々は,タスクがブロックを選択し,それを目標位置に持って行き,グリップをトップグリップから向き付けするシミュレーションロボット環境において,我々のアプローチを検証する。
後者は、現在のエンドツーエンドの強化学習が一般化に失敗する余分な自由度を表す。
その結果,各行動が単独で学習された場合,ロボット学習がより効果的になる可能性が示唆された。
つまり、私たちのアプローチは8000のエピソードで選択と配置のタスクを学習し、エンドツーエンドのアプローチと既存の最先端のアルゴリズムで必要とされるトレーニングエピソードの数を大幅に削減します。
関連論文リスト
- Bidirectional Progressive Neural Networks with Episodic Return Progress
for Emergent Task Sequencing and Robotic Skill Transfer [1.7205106391379026]
双方向進行型ニューラルネットワーク(ERP-BPNN)を用いた多タスク強化学習フレームワークについて紹介する。
提案するERP-BPNNモデルは,(2)本質的なモチベーション信号に基づく自律的なタスク切替によって,人間のようなインターリーブ方式で学習する。
本研究では,ERP-BPNNによる累積収束の高速化と,形態的に異なるロボットに比較して,全ての指標の性能向上を図っている。
論文 参考訳(メタデータ) (2024-03-06T19:17:49Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics [44.62475518267084]
我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-13T09:29:40Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。