論文の概要: Deep active inference agents using Monte-Carlo methods
- arxiv url: http://arxiv.org/abs/2006.04176v2
- Date: Thu, 22 Oct 2020 13:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:47:30.410485
- Title: Deep active inference agents using Monte-Carlo methods
- Title(参考訳): モンテカルロ法による深部能動推論剤
- Authors: Zafeirios Fountas, Noor Sajid, Pedro A.M. Mediano, Karl Friston
- Abstract要約: モンテカルロサンプリングを用いた連続状態空間における深部能動推論エージェント構築のためのニューラルアーキテクチャを提案する。
提案手法は,タスク性能を維持しつつ,環境動態を効率的に学習することを可能にする。
その結果、深層能動推論は生物学的にインスパイアされた知的エージェントを開発するための柔軟な枠組みを提供することが示された。
- 参考スコア(独自算出の注目度): 3.8233569758620054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active inference is a Bayesian framework for understanding biological
intelligence. The underlying theory brings together perception and action under
one single imperative: minimizing free energy. However, despite its theoretical
utility in explaining intelligence, computational implementations have been
restricted to low-dimensional and idealized situations. In this paper, we
present a neural architecture for building deep active inference agents
operating in complex, continuous state-spaces using multiple forms of
Monte-Carlo (MC) sampling. For this, we introduce a number of techniques, novel
to active inference. These include: i) selecting free-energy-optimal policies
via MC tree search, ii) approximating this optimal policy distribution via a
feed-forward `habitual' network, iii) predicting future parameter belief
updates using MC dropouts and, finally, iv) optimizing state transition
precision (a high-end form of attention). Our approach enables agents to learn
environmental dynamics efficiently, while maintaining task performance, in
relation to reward-based counterparts. We illustrate this in a new toy
environment, based on the dSprites data-set, and demonstrate that active
inference agents automatically create disentangled representations that are apt
for modeling state transitions. In a more complex Animal-AI environment, our
agents (using the same neural architecture) are able to simulate future state
transitions and actions (i.e., plan), to evince reward-directed navigation -
despite temporary suspension of visual input. These results show that deep
active inference - equipped with MC methods - provides a flexible framework to
develop biologically-inspired intelligent agents, with applications in both
machine learning and cognitive science.
- Abstract(参考訳): 能動推論は生物学的知性を理解するためのベイズ的枠組みである。
基礎となる理論は、自由エネルギーの最小化という一つの命令の下に知覚と行動をもたらす。
しかし、インテリジェンスを説明するための理論的有用性にもかかわらず、計算の実装は低次元および理想化された状況に限られている。
本稿では,複数形態のモンテカルロサンプリング(mc)を用いて,複雑な連続状態空間で動作する深層アクティブ推論エージェントを構築するためのニューラルアーキテクチャを提案する。
そこで我々は,能動的推論に斬新な手法をいくつか紹介する。
以下を含む。
i)mc木探索による自由エネルギー最適政策の選択
二 フィードフォワード「居住型」ネットワークを介してこの最適な政策分布を近似すること。
iii)mcドロップアウトと最後に、将来のパラメータ信念更新の予測
四 状態遷移精度(ハイエンドの注意形態)を最適化すること。
本手法により,エージェントは報酬ベースと関連するタスク性能を維持しつつ,効率的に環境力学を学ぶことができる。
dspritesデータセットに基づいた新しいトイ環境でこれを説明し、アクティブな推論エージェントが状態遷移のモデリングに適した不連続表現を自動的に生成することを示す。
より複雑な動物-ai環境では、エージェント(同じニューラルアーキテクチャを使用して)が将来の状態遷移やアクション(すなわち計画)をシミュレートし、視覚入力の一時的な停止を許す。
これらの結果は、MC手法を備えた深層能動推論が、生物学的にインスパイアされた知的エージェントを開発する柔軟なフレームワークを提供することを示している。
関連論文リスト
- Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Realising Active Inference in Variational Message Passing: the
Outcome-blind Certainty Seeker [3.5450828190071655]
本稿では、離散時間および状態空間におけるアクティブ推論フレームワークの完全な数学的処理について述べる。
アクティブ推論と変動メッセージパッシングの理論的関係を活用します。
完全因子化変分分布を用いることで, 期待自由エネルギーの簡易化が図れる。
論文 参考訳(メタデータ) (2021-04-23T19:40:55Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。