論文の概要: Seeking entropy: complex behavior from intrinsic motivation to occupy
action-state path space
- arxiv url: http://arxiv.org/abs/2205.10316v1
- Date: Fri, 20 May 2022 17:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 16:38:09.486629
- Title: Seeking entropy: complex behavior from intrinsic motivation to occupy
action-state path space
- Title(参考訳): エントロピーを求めて--本質的動機づけから行動状態パス空間への複雑な行動
- Authors: Jorge Ram\'irez-Ruiz, Dmytro Grytskyy, Rub\'en Moreno-Bote
- Abstract要約: 内在的モチベーションは必ずしも即時報酬をもたらすのではなく、探索と学習を支援する行動を生成する。
行動状態経路のエントロピーは、期待される将来の行動状態経路占有の付加性とその他の直感的な性質と整合する唯一の尺度である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic motivation generates behaviors that do not necessarily lead to
immediate reward, but help exploration and learning. Here we show that agents
having the sole goal of maximizing occupancy of future actions and states, that
is, moving and exploring on the long term, are capable of complex behavior
without any reference to external rewards. We find that action-state path
entropy is the only measure consistent with additivity and other intuitive
properties of expected future action-state path occupancy. We provide
analytical expressions that relate the optimal policy with the optimal
state-value function, from where we prove uniqueness of the solution of the
associated Bellman equation and convergence of our algorithm to the optimal
state-value function. Using discrete and continuous state tasks, we show that
`dancing', hide-and-seek and a basic form of altruistic behavior naturally
result from entropy seeking without external rewards. Intrinsically motivated
agents can objectively determine what states constitute rewards, exploiting
them to ultimately maximize action-state path entropy.
- Abstract(参考訳): 内在的な動機付けは、必ずしも即時報酬につながるわけではないが、探索や学習に役立つ行動を生み出す。
ここでは、将来の行動や状態の占有を最大化するという唯一の目標、すなわち長期に渡り探索するエージェントが、外部の報酬に言及せずに複雑な行動を行うことができることを示す。
アクション状態経路エントロピーは、将来のアクション状態経路占有率の付加性と他の直感的特性と一致する唯一の尺度であることがわかった。
そこでは,ベルマン方程式の解の一意性を証明し,アルゴリズムを最適状態値関数に収束させることから,最適方針と最適状態値関数を関連付ける解析式を提案する。
離散状態タスクと連続状態タスクを用いることで,'dancing',hid-and-seek,および基本的な利他的行動形態は,エントロピーが外的報酬を伴わないことから自然に生じることを示す。
本質的に動機付けられたエージェントは、どの状態が報酬を構成するかを客観的に決定し、最終的に行動状態の経路エントロピーを最大化する。
関連論文リスト
- Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Intrinsic Motivation in Dynamical Control Systems [5.635628182420597]
エージェントのエンパワーメントの最大化に基づく本質的なモチベーションに対する情報理論的アプローチについて検討する。
このアプローチは、本質的なモチベーションを形式化する以前の試みを一般化することを示す。
これにより、実用的な人工的な本質的なモチベーションを持つコントローラーを設計するための扉が開く。
論文 参考訳(メタデータ) (2022-12-29T05:20:08Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Inverse Rational Control with Partially Observable Continuous Nonlinear
Dynamics [6.65264113799989]
神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。
この問題は制御理論によって解けるので、与えられた系力学と目的関数の最適作用を見つけることができる。
我々は、動物が独自の欠陥のある内部モデルを持っていると仮定し、その欠陥モデルに従って最も期待された主観的な報酬で行動を選択する。
ここでは、この問題を部分的に観測可能なマルコフ決定過程において離散制御するために解決した逆回帰制御に関する過去の研究を一般化する。
論文 参考訳(メタデータ) (2020-09-26T11:47:48Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。