論文の概要: Avoiding Death through Fear Intrinsic Conditioning
- arxiv url: http://arxiv.org/abs/2506.05529v1
- Date: Thu, 05 Jun 2025 19:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.205765
- Title: Avoiding Death through Fear Intrinsic Conditioning
- Title(参考訳): 恐怖の自然条件による死の回避
- Authors: Rodney Sanchez, Ferat Sahin, Alexander Ororbia, Jamison Heard,
- Abstract要約: 我々は、初期の扁桃体発達にインスパイアされた本質的な報酬関数を導入し、この本質的な報酬関数を、新しいメモリ拡張ニューラルネットワークアーキテクチャにより生成する。
この本質的なモチベーションが終末状態の探索を阻害し,動物に観察される恐怖条件と同様の回避行動をもたらすことを示す。
- 参考スコア(独自算出の注目度): 48.07595141865156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological and psychological concepts have inspired reinforcement learning algorithms to create new complex behaviors that expand agents' capacity. These behaviors can be seen in the rise of techniques like goal decomposition, curriculum, and intrinsic rewards, which have paved the way for these complex behaviors. One limitation in evaluating these methods is the requirement for engineered extrinsic for realistic environments. A central challenge in engineering the necessary reward function(s) comes from these environments containing states that carry high negative rewards, but provide no feedback to the agent. Death is one such stimuli that fails to provide direct feedback to the agent. In this work, we introduce an intrinsic reward function inspired by early amygdala development and produce this intrinsic reward through a novel memory-augmented neural network (MANN) architecture. We show how this intrinsic motivation serves to deter exploration of terminal states and results in avoidance behavior similar to fear conditioning observed in animals. Furthermore, we demonstrate how modifying a threshold where the fear response is active produces a range of behaviors that are described under the paradigm of general anxiety disorders (GADs). We demonstrate this behavior in the Miniworld Sidewalk environment, which provides a partially observable Markov decision process (POMDP) and a sparse reward with a non-descriptive terminal condition, i.e., death. In effect, this study results in a biologically-inspired neural architecture and framework for fear conditioning paradigms; we empirically demonstrate avoidance behavior in a constructed agent that is able to solve environments with non-descriptive terminal conditions.
- Abstract(参考訳): 生物学的・心理学的な概念は強化学習アルゴリズムに刺激を与え、エージェントの能力を拡張する新しい複雑な行動を生み出した。
これらの行動は、これらの複雑な行動の道を開いたゴール分解、カリキュラム、本質的な報酬のようなテクニックの台頭に見ることができる。
これらの手法を評価する上での限界の一つは、現実的な環境において工学的外在性を必要とすることである。
工学における中心的な課題は、必要な報酬関数は、高い負の報酬を持つがエージェントにフィードバックを与えない状態を含むこれらの環境から生まれる。
死は、エージェントに直接フィードバックを提供するのに失敗する、そのような刺激の1つです。
本研究では、初期の扁桃体発達にインスパイアされた本質的な報酬関数を導入し、この本質的な報酬関数を、新しいメモリ拡張ニューラルネットワーク(MANN)アーキテクチャにより生成する。
この本質的なモチベーションが終末状態の探索を阻害し,動物に観察される恐怖条件と同様の回避行動をもたらすことを示す。
さらに、恐怖反応が活発なしきい値を変更することで、一般的な不安障害(GAD)のパラダイムの下で記述される様々な行動が生じることを示す。
我々は,この動作をミニワールド・サイドウォーク環境において実証し,部分的に観測可能なマルコフ決定プロセス(POMDP)と,非記述的端末条件,すなわち死のスパース報酬(sparse reward)を提供する。
そこで本研究では,非記述的端末条件で環境を解決可能な構築エージェントにおいて,回避行動を実証的に実証した。
関連論文リスト
- Counter-Inferential Behavior in Natural and Artificial Cognitive Systems [0.0]
本研究では,自然・人工認知システムにおける反推論行動の出現について検討する。
ノイズや設計上の欠陥から生じるのではなく、内部情報モデル間の構造化された相互作用を通じて発生する。
本研究は, 安定条件下での適応活性化を最小限に抑えることの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T05:04:07Z) - Emergence of Goal-Directed Behaviors via Active Inference with Self-Prior [4.863927022806184]
幼児は、外部報酬基準が提供されていない場合でも、感覚刺激に手を伸ばすなど、目標指向の行動を示すことが多い。
我々は「自己優先」と呼ばれるエージェント自身のマルチモーダル感覚経験のための新しい密度モデルを提案する。
本研究は、エージェント自身の感覚経験によって形成される本態的に動機づけられた行動を実装し、初期発達における意図的行動の自然発生を実証する。
論文 参考訳(メタデータ) (2025-04-15T11:16:27Z) - Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning [6.937243101289336]
教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化は異なる環境において有効であることが示されている。
マルチアームバンディット問題としての選択をフレーミングすることで、エントロピー条件に応じて、その目的をオンラインで適応できるエージェントを提案する。
我々は,このようなエージェントがエントロピーを制御し,高エントロピーと低エントロピーの両体制において創発的な行動を示すことを実証した。
論文 参考訳(メタデータ) (2024-05-27T14:58:24Z) - Active Inference and Intentional Behaviour [40.19132448481507]
理論生物学の最近の進歩は、基底認知と知覚的行動がin vitro細胞培養と神経ネットワークの創発的特性であることを示唆している。
我々は、自由エネルギー原理のレンズを通して、この種の自己組織化を自己認識として特徴づける。
シミュレーションを用いて,これらの形態(反応性,感性,意図的)について検討する。
論文 参考訳(メタデータ) (2023-12-06T09:38:35Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。