論文の概要: Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short
Survey
- arxiv url: http://arxiv.org/abs/2012.09830v2
- Date: Tue, 16 Mar 2021 14:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:39:35.595989
- Title: Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short
Survey
- Title(参考訳): 具体的動機づけ型ゴール・コンディション強化学習:短期調査
- Authors: C\'edric Colas, Tristan Karch, Olivier Sigaud, Pierre-Yves Oudeyer
- Abstract要約: 開発アプローチは、学習エージェントは自身の問題を解決するために生成、選択、学習しなければならないと主張する。
近年、発達的アプローチと深層強化学習(RL)手法の融合が見られ、発達的機械学習の新しい領域を形成している。
本稿では,深層rlと発達的アプローチの交点におけるこれらの手法の類型論,最近のアプローチのサーベイ,今後の展望について述べる。
- 参考スコア(独自算出の注目度): 21.311739361361717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building autonomous machines that can explore open-ended environments,
discover possible interactions and autonomously build repertoires of skills is
a general objective of artificial intelligence. Developmental approaches argue
that this can only be achieved by autonomous and intrinsically motivated
learning agents that can generate, select and learn to solve their own
problems. In recent years, we have seen a convergence of developmental
approaches, and developmental robotics in particular, with deep reinforcement
learning (RL) methods, forming the new domain of developmental machine
learning. Within this new domain, we review here a set of methods where deep RL
algorithms are trained to tackle the developmental robotics problem of the
autonomous acquisition of open-ended repertoires of skills. Intrinsically
motivated goal-conditioned RL algorithms train agents to learn to represent,
generate and pursue their own goals. The self-generation of goals requires the
learning of compact goal encodings as well as their associated goal-achievement
functions, which results in new challenges compared to traditional RL
algorithms designed to tackle pre-defined sets of goals using external reward
signals. This paper proposes a typology of these methods at the intersection of
deep RL and developmental approaches, surveys recent approaches and discusses
future avenues.
- Abstract(参考訳): オープンエンド環境を探索し、対話の可能性を発見し、スキルのレパートリーを自律的に構築できる自律マシンの構築は、人工知能の一般的な目的である。
開発アプローチでは、これは自律的かつ本質的な動機づけのある学習エージェントによってのみ達成できる、と論じている。
近年,発達的アプローチ,特に発達的ロボット工学が融合し,深層強化学習(rl)法が開発的機械学習の新しい領域を形成している。
この新たな領域内では、オープンエンドのレパートリーを自律的に獲得する開発ロボティクス問題に取り組むために、ディープRLアルゴリズムを訓練する一連の手法をレビューする。
本質的に目標条件付きRLアルゴリズムは、エージェントに自身の目標を表現、生成、追跡することを学ぶように訓練する。
目標の自己生成には、コンパクトなゴールエンコーディングの学習と、関連するゴールアゲメント関数が必要であり、これは、外部の報酬信号を使用して、事前定義された目標セットに取り組むように設計された従来のrlアルゴリズムと比較して、新たな課題をもたらす。
本稿では,深層rlと発達的アプローチの交点におけるこれらの手法の類型論,最近のアプローチのサーベイ,今後の展望について述べる。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Reinforcement Learning for Generative AI: State of the Art,
Opportunities and Open Research Challenges [2.9008806248012333]
強化学習(Reinforcement Learning, RL)は、さまざまな機械学習タスクのパラダイムとして非常に成功した。
目的を指定せずに生成する代替手段として,RLという3種類のアプリケーションについて論じる。
我々は,この魅力的な新興地域の機会と課題について,深く議論して,調査を締めくくった。
論文 参考訳(メタデータ) (2023-07-31T18:00:02Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Reinforcement Learning for Multi-Agent Interaction [14.532965827043254]
自律エージェント研究グループは、自律システム制御のための新しい機械学習アルゴリズムを開発した。
本稿では,現在進行中の研究ポートフォリオの概要を概説するとともに,今後の課題について論じる。
論文 参考訳(メタデータ) (2022-08-02T21:55:56Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。