論文の概要: Complex behavior from intrinsic motivation to occupy action-state path
space
- arxiv url: http://arxiv.org/abs/2205.10316v2
- Date: Sat, 24 Feb 2024 05:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:45:34.350569
- Title: Complex behavior from intrinsic motivation to occupy action-state path
space
- Title(参考訳): 内在的動機から行動状態経路空間への複雑挙動
- Authors: Jorge Ram\'irez-Ruiz, Dmytro Grytskyy, Chiara Mastrogiuseppe, Yamen
Habib and Rub\'en Moreno-Bote
- Abstract要約: 行動の目標は、行動や状態の経路の将来の占有を最大化することである。
この占有原則によると、報酬はそれぞれの目標ではなく、パス空間を占有する手段である。
本研究では,舞踊,隠蔽,利他的行動の基本形態などの複雑な行動が,自然に経路空間を占有する本質的な動機から生じることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most theories of behavior posit that agents tend to maximize some form of
reward or utility. However, animals very often move with curiosity and seem to
be motivated in a reward-free manner. Here we abandon the idea of reward
maximization, and propose that the goal of behavior is maximizing occupancy of
future paths of actions and states. According to this maximum occupancy
principle, rewards are the means to occupy path space, not the goal per se;
goal-directedness simply emerges as rational ways of searching for resources so
that movement, understood amply, never ends. We find that action-state path
entropy is the only measure consistent with additivity and other intuitive
properties of expected future action-state path occupancy. We provide
analytical expressions that relate the optimal policy and state-value function,
and prove convergence of our value iteration algorithm. Using discrete and
continuous state tasks, including a high--dimensional controller, we show that
complex behaviors such as `dancing', hide-and-seek and a basic form of
altruistic behavior naturally result from the intrinsic motivation to occupy
path space. All in all, we present a theory of behavior that generates both
variability and goal-directedness in the absence of reward maximization.
- Abstract(参考訳): エージェントは何らかの報酬や効用を最大化する傾向があるという行動仮説のほとんどである。
しかし、動物は好奇心を持って動き、報酬のない方法で動機づけられることが多い。
ここでは報酬の最大化という考え方を捨て、行動の目標は行動や状態の将来の経路の占有を最大化することを提案する。
この最大占有原理によれば、報酬は経路空間を占有する手段であり、目的ごとの目標ではない。
アクション状態経路エントロピーは、将来のアクション状態経路占有率の付加性と他の直感的特性と一致する唯一の尺度であることがわかった。
最適方針と状態値関数を関連付けた分析式を提供し,値反復アルゴリズムの収束を証明する。
高次元コントローラを含む離散的かつ連続的な状態タスクを用いることで、「ダンシング」や「シーク・アンド・シーク」といった複雑な行動、そして利他的行動の基本形が本質的に経路空間を占有する動機から自然に生じることを示す。
総じて、報酬の最大化がなければ、変動性と目標指向性の両方を生み出す行動理論を提示する。
関連論文リスト
- Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Intrinsic Motivation in Dynamical Control Systems [5.635628182420597]
エージェントのエンパワーメントの最大化に基づく本質的なモチベーションに対する情報理論的アプローチについて検討する。
このアプローチは、本質的なモチベーションを形式化する以前の試みを一般化することを示す。
これにより、実用的な人工的な本質的なモチベーションを持つコントローラーを設計するための扉が開く。
論文 参考訳(メタデータ) (2022-12-29T05:20:08Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Inverse Rational Control with Partially Observable Continuous Nonlinear
Dynamics [6.65264113799989]
神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。
この問題は制御理論によって解けるので、与えられた系力学と目的関数の最適作用を見つけることができる。
我々は、動物が独自の欠陥のある内部モデルを持っていると仮定し、その欠陥モデルに従って最も期待された主観的な報酬で行動を選択する。
ここでは、この問題を部分的に観測可能なマルコフ決定過程において離散制御するために解決した逆回帰制御に関する過去の研究を一般化する。
論文 参考訳(メタデータ) (2020-09-26T11:47:48Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。