論文の概要: Mutual Information State Intrinsic Control
- arxiv url: http://arxiv.org/abs/2103.08107v1
- Date: Mon, 15 Mar 2021 03:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:02:44.672511
- Title: Mutual Information State Intrinsic Control
- Title(参考訳): 相互情報状態固有の制御
- Authors: Rui Zhao, Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu
- Abstract要約: 本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
- 参考スコア(独自算出の注目度): 91.38627985733068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been shown to be highly successful at many
challenging tasks. However, success heavily relies on well-shaped rewards.
Intrinsically motivated RL attempts to remove this constraint by defining an
intrinsic reward function. Motivated by the self-consciousness concept in
psychology, we make a natural assumption that the agent knows what constitutes
itself, and propose a new intrinsic objective that encourages the agent to have
maximum control on the environment. We mathematically formalize this reward as
the mutual information between the agent state and the surrounding state under
the current agent policy. With this new intrinsic motivation, we are able to
outperform previous methods, including being able to complete the
pick-and-place task for the first time without using any task reward. A video
showing experimental results is available at https://youtu.be/AUCwc9RThpk.
- Abstract(参考訳): 強化学習は多くの困難なタスクで非常に成功したことが示されている。
しかし、成功は見事な報酬に大きく依存している。
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機づけられ、エージェントが自身を構成するものを知っていると仮定し、エージェントが環境を最大限に制御することを奨励する新しい本質的な目的を提案する。
我々は,現行のエージェントポリシーの下で,エージェント状態と周辺状態の相互情報として,この報酬を数学的に定式化する。
この新しい本質的な動機により、タスク報酬を使わずに初めてピックアンドプレースタスクを完了できるなど、以前の方法よりも優れた結果を得ることができます。
実験結果を示すビデオがhttps://youtu.be/aucwc9rthpkで公開されている。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments [0.0]
エンパワーメントの原理に基づく本質的な報酬関数は、エージェントが自身のセンサーに持つ制御量に比例する報酬を割り当てる。
我々は,最近提案された内在的動機づけ剤に,「キュリオス」剤,エンパワーメント刺激剤の変種を実装した。
両エージェントのパフォーマンスを、4つのスパース報酬グリッドの世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較する。
論文 参考訳(メタデータ) (2021-07-14T22:52:38Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。