論文の概要: Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.01963v2
- Date: Fri, 12 Jun 2020 19:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:12:41.025039
- Title: Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning
- Title(参考訳): 具体的動機付け強化学習のための相互情報に基づく状態制御
- Authors: Rui Zhao, Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu
- Abstract要約: 強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
- 参考スコア(独自算出の注目度): 102.05692309417047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, an agent learns to reach a set of goals by means
of an external reward signal. In the natural world, intelligent organisms learn
from internal drives, bypassing the need for external signals, which is
beneficial for a wide range of tasks. Motivated by this observation, we propose
to formulate an intrinsic objective as the mutual information between the goal
states and the controllable states. This objective encourages the agent to take
control of its environment. Subsequently, we derive a surrogate objective of
the proposed reward function, which can be optimized efficiently. Lastly, we
evaluate the developed framework in different robotic manipulation and
navigation tasks and demonstrate the efficacy of our approach. A video showing
experimental results is available at https://youtu.be/CT4CKMWBYz0
- Abstract(参考訳): 強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学ぶ。
自然界では、知的生物は内部の駆動から学習し、外部信号の必要性を回避し、幅広いタスクに役立ちます。
そこで本研究では,目標状態と制御可能な状態の相互情報として本質的目標を定式化することを提案する。
この目的により、エージェントは環境の制御を奨励する。
その後,提案した報奨関数の代用目的を導出し,効率よく最適化することができる。
最後に,ロボット操作およびナビゲーションタスクにおける開発フレームワークを評価し,本手法の有効性を実証する。
実験結果を示すビデオはhttps://youtu.be/CT4CKMWBYz0で公開されている。
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Walk the Random Walk: Learning to Discover and Reach Goals Without
Supervision [21.72567982148215]
本稿では,外部の報酬やドメイン知識を伴わずに,そのような目標条件付きエージェントを訓練するための新しい手法を提案する。
我々はランダムウォークを用いて、2つの状態間の類似性を予測する到達可能性ネットワークを訓練する。
この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。
すべてのコンポーネントは、エージェントが新しい目標を発見して学習するにつれて、トレーニングを通じて更新される。
論文 参考訳(メタデータ) (2022-06-23T14:29:36Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。