論文の概要: Continuous Homeostatic Reinforcement Learning for Self-Regulated
Autonomous Agents
- arxiv url: http://arxiv.org/abs/2109.06580v1
- Date: Tue, 14 Sep 2021 11:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 23:51:05.226428
- Title: Continuous Homeostatic Reinforcement Learning for Self-Regulated
Autonomous Agents
- Title(参考訳): 自己制御型自律エージェントのための連続的ホメオスタティック強化学習
- Authors: Hugo Lauren\c{c}on, Charbel-Rapha\"el S\'egerie, Johann Lussange,
Boris S. Gutkin
- Abstract要約: 本研究では,恒常的強化学習理論を空間的・時間的連続環境に拡張することを提案する。
生物に豊富に存在する自己制御機構にインスパイアされ、エージェントの内部状態のダイナミクスのモデルも導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Homeostasis is a prevalent process by which living beings maintain their
internal milieu around optimal levels. Multiple lines of evidence suggest that
living beings learn to act to predicatively ensure homeostasis (allostasis). A
classical theory for such regulation is drive reduction, where a function of
the difference between the current and the optimal internal state. The recently
introduced homeostatic regulated reinforcement learning theory (HRRL), by
defining within the framework of reinforcement learning a reward function based
on the internal state of the agent, makes the link between the theories of
drive reduction and reinforcement learning. The HRRL makes it possible to
explain multiple eating disorders. However, the lack of continuous change in
the internal state of the agent with the discrete-time modeling has been so far
a key shortcoming of the HRRL theory. Here, we propose an extension of the
homeostatic reinforcement learning theory to a continuous environment in space
and time, while maintaining the validity of the theoretical results and the
behaviors explained by the model in discrete time. Inspired by the
self-regulating mechanisms abundantly present in biology, we also introduce a
model for the dynamics of the agent internal state, requiring the agent to
continuously take actions to maintain homeostasis. Based on the
Hamilton-Jacobi-Bellman equation and function approximation with neural
networks, we derive a numerical scheme allowing the agent to learn directly how
its internal mechanism works, and to choose appropriate action policies via
reinforcement learning and an appropriate exploration of the environment. Our
numerical experiments show that the agent does indeed learn to behave in a way
that is beneficial to its survival in the environment, making our framework
promising for modeling animal dynamics and decision-making.
- Abstract(参考訳): ホメオスタシス(homeostasis)は、生物が最適なレベルで内部ミリューを維持する一般的なプロセスである。
複数の証拠は、生物がホメオスタシス(アロスタシス)を予防するために行動することを学ぶことを示唆している。
そのような規制の古典的な理論は、電流と最適内部状態の差の関数である駆動還元である。
最近導入されたホメオスタティック強化学習理論(HRRL)は、強化学習の枠組みの中で、エージェントの内部状態に基づいて報酬関数を定義することにより、駆動低減理論と強化学習理論の関連性を示すものである。
HRRLは複数の摂食障害を説明することができる。
しかしながら、離散時間モデリングによるエージェントの内部状態の連続的な変化の欠如は、hrrl理論の重要な欠点となっている。
本稿では,理論結果の妥当性とモデルで説明される動作を離散時間で維持しながら,時空の連続環境にホメオスタティック強化学習理論を拡張することを提案する。
また, 生物に豊富に存在する自己調節機構に着想を得て, ホメオスタシスを持続的に維持するためには, エージェントの内部状態のダイナミクスモデルも導入する。
ハミルトン・ヤコビ・ベルマン方程式とニューラルネットワークとの関数近似に基づいて,エージェントが内部機構を直接学習し,強化学習と環境の適切な探索を通じて適切な行動方針を選択するための数値スキームを導出する。
数値実験により, エージェントは環境中での生存に有益な振る舞いを学習し, 動物動態と意思決定をモデル化するための枠組みが期待できることがわかった。
関連論文リスト
- Surprise! Using Physiological Stress for Allostatic Regulation Under the Active Inference Framework [Pre-Print] [0.5586191108738563]
本研究では, 生理的ストレスホルモン(コルチゾール)の分泌に予測誤差を基礎づけるモデルを構築した。
以上の結果から,コルチゾール (ストレス) の静電気的作用は, 長期間の生理的調節に適応的に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:56:15Z) - Continuous Time Continuous Space Homeostatic Reinforcement Learning
(CTCS-HRRL) : Towards Biological Self-Autonomous Agent [0.12068041242343093]
ホメオスタシス(英: Homeostasis)は、生物が内部バランスを維持する過程である。
ホメオスタティック強化学習(HRRL)フレームワークは、この学習されたホメオスタティックな振る舞いを説明する。
本研究では,HRRLフレームワークを連続的な時間空間環境に進化させ,CTCS-HRRLフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-17T06:29:34Z) - Emergence of Adaptive Circadian Rhythms in Deep Reinforcement Learning [0.0]
環境の規則性に適応することは、生物が出来事や計画を予測するために重要である。
深部強化学習エージェントにおける概日リズムの出現について検討した。
論文 参考訳(メタデータ) (2023-07-22T18:47:18Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。