論文の概要: DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics
- arxiv url: http://arxiv.org/abs/2005.06223v1
- Date: Wed, 13 May 2020 09:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 09:59:16.501409
- Title: DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics
- Title(参考訳): dream architecture: ロボティクスにおけるオープンエンド学習への開発アプローチ
- Authors: Stephane Doncieux (ISIR), Nicolas Bredeche (ISIR), L\'eni Le Goff
(ISIR), Beno\^it Girard (ISIR), Alexandre Coninx (ISIR), Olivier Sigaud
(ISIR), Mehdi Khamassi (ISIR), Natalia D\'iaz-Rodr\'iguez (U2IS), David
Filliat (U2IS), Timothy Hospedales (ICSA), A. Eiben (VU), Richard Duro
- Abstract要約: 我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 44.62475518267084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots are still limited to controlled conditions, that the robot designer
knows with enough details to endow the robot with the appropriate models or
behaviors. Learning algorithms add some flexibility with the ability to
discover the appropriate behavior given either some demonstrations or a reward
to guide its exploration with a reinforcement learning algorithm. Reinforcement
learning algorithms rely on the definition of state and action spaces that
define reachable behaviors. Their adaptation capability critically depends on
the representations of these spaces: small and discrete spaces result in fast
learning while large and continuous spaces are challenging and either require a
long training period or prevent the robot from converging to an appropriate
behavior. Beside the operational cycle of policy execution and the learning
cycle, which works at a slower time scale to acquire new policies, we introduce
the redescription cycle, a third cycle working at an even slower time scale to
generate or adapt the required representations to the robot, its environment
and the task. We introduce the challenges raised by this cycle and we present
DREAM (Deferred Restructuring of Experience in Autonomous Machines), a
developmental cognitive architecture to bootstrap this redescription process
stage by stage, build new state representations with appropriate motivations,
and transfer the acquired knowledge across domains or tasks or even across
robots. We describe results obtained so far with this approach and end up with
a discussion of the questions it raises in Neuroscience.
- Abstract(参考訳): ロボットは制御された状態に限られており、ロボット設計者はロボットに適切なモデルや行動を与えるのに十分な詳細を知っている。
学習アルゴリズムは、いくつかのデモンストレーションや強化学習アルゴリズムによる探索を導く報奨として、適切な行動を発見できる柔軟性を付加する。
強化学習アルゴリズムは、到達可能な振る舞いを定義する状態空間と行動空間の定義に依存する。
小さい空間と離散空間は高速学習をもたらすが、大きな空間と連続空間は困難であり、長い訓練期間を必要とするか、ロボットが適切な行動に収束することを防ぐかのどちらかである。
ポリシー実行の運用サイクルと、新しいポリシーを取得するために遅い時間スケールで動作する学習サイクルの他に、より遅い時間スケールで作業する3番目のサイクルである再記述サイクルを導入し、必要な表現をロボット、その環境、タスクに生成または適応する。
我々は、このサイクルによって引き起こされた課題を紹介し、この再記述プロセス段階を段階的にブートストラップし、適切な動機を持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達する、開発認知アーキテクチャであるdream(deferred restructuring of experience in autonomous machines)を提案する。
このアプローチで得られた結果について述べるとともに,神経科学における疑問について考察する。
関連論文リスト
- Towards General Purpose Robots at Scale: Lifelong Learning and Learning to Use Memory [0.0]
このテーマは、記憶と生涯学習という、長い時間をかけて動くロボットにとっての2つの重要な課題に対処することに焦点を当てている。
まず,連続世界ベンチマークにおける最先端性能を実現するトラジェクトリベースディープ生成再生法であるt-DGRを紹介する。
第2に,人間の実演を利用してエージェントに効果的なメモリ利用を教えるフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-28T21:13:48Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Low Dimensional State Representation Learning with Robotics Priors in
Continuous Action Spaces [8.692025477306212]
強化学習アルゴリズムは、エンドツーエンドで複雑なロボティクスタスクを解くことができることが証明されている。
本稿では,ロボットの生の知覚情報から得られる高次元の観察から,低次元状態表現の学習と最適ポリシーの学習を組み合わせた枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-04T15:42:01Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。