論文の概要: Deconstructing deep active inference
- arxiv url: http://arxiv.org/abs/2303.01618v2
- Date: Mon, 8 May 2023 08:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 22:51:36.990803
- Title: Deconstructing deep active inference
- Title(参考訳): 深部活動推論の分解
- Authors: Th\'eophile Champion and Marek Grze\'s and Lisa Bonheme and Howard
Bowman
- Abstract要約: アクティブ推論(英: Active Inference)とは、知覚、学習、意思決定の理論である。
このアクティビティの目標は、より複雑なタスクを、深いアクティブ推論を使って解決することである。
- 参考スコア(独自算出の注目度): 2.236663830879273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active inference is a theory of perception, learning and decision making,
which can be applied to neuroscience, robotics, and machine learning. Recently,
reasearch has been taking place to scale up this framework using Monte-Carlo
tree search and deep learning. The goal of this activity is to solve more
complicated tasks using deep active inference. First, we review the existing
literature, then, we progresively build a deep active inference agent. For two
agents, we have experimented with five definitions of the expected free energy
and three different action selection strategies. According to our experiments,
the models able to solve the dSprites environment are the ones that maximise
rewards. Finally, we compare the similarity of the representation learned by
the layers of various agents using centered kernel alignment. Importantly, the
agent maximising reward and the agent minimising expected free energy learn
very similar representations except for the last layer of the critic network
(reflecting the difference in learning objective), and the variance layers of
the transition and encoder networks. We found that the reward maximising agent
is a lot more certain than the agent minimising expected free energy. This is
because the agent minimising expected free energy always picks the action down,
and does not gather enough data for the other actions. In contrast, the agent
maximising reward, keeps on selecting the actions left and right, enabling it
to successfully solve the task. The only difference between those two agents is
the epistemic value, which aims to make the outputs of the transition and
encoder networks as close as possible. Thus, the agent minimising expected free
energy picks a single action (down), and becomes an expert at predicting the
future when selecting this action. This makes the KL divergence between the
output of the transition and encoder networks small.
- Abstract(参考訳): アクティブ推論(英: Active Inference)とは、神経科学、ロボット工学、機械学習に応用できる知覚、学習、意思決定の理論である。
近年,モンテカルロ木探索とディープラーニングを用いて,このフレームワークのスケールアップが試みられている。
このアクティビティの目標は、より複雑なタスクを、深いアクティブ推論を使って解決することである。
まず,既存の文献を概観し,より積極的な推論エージェントを構築した。
2つのエージェントに対して,期待自由エネルギーの5つの定義と3つの異なるアクション選択戦略を実験した。
我々の実験によると、dsprites環境を解決できるモデルは報酬を最大化するものである。
最後に,カーネルアライメントを用いた種々のエージェントの層によって学習された表現の類似性を比較する。
重要なことに、報酬を最大化するエージェントと、期待自由エネルギーを最小化するエージェントは、批判ネットワークの最終層(学習目的の違いを反映する)と、遷移およびエンコーダネットワークの分散層を除いて、非常に類似した表現を学習する。
報酬最大化剤は期待される自由エネルギーを最小化する剤よりもはるかに確実であることがわかった。
これは、期待される自由エネルギーを最小限に抑えるエージェントが常にアクションを分解し、他のアクションに十分なデータを集めることができないためである。
対照的に、報酬を最大化するエージェントは、左右のアクションを選択し続け、そのタスクをうまく解決できるようにする。
これら2つのエージェントの唯一の違いは、トランジッションとエンコーダネットワークの出力を可能な限り近づけることを目的とした認識値である。
これにより、期待自由エネルギーを最小化するエージェントは、単一のアクションを選択(ダウン)し、このアクションを選択する際に将来を予測する専門家となる。
これにより、遷移の出力とエンコーダネットワークの間のKLのばらつきが小さくなる。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Deep active inference agents using Monte-Carlo methods [3.8233569758620054]
モンテカルロサンプリングを用いた連続状態空間における深部能動推論エージェント構築のためのニューラルアーキテクチャを提案する。
提案手法は,タスク性能を維持しつつ,環境動態を効率的に学習することを可能にする。
その結果、深層能動推論は生物学的にインスパイアされた知的エージェントを開発するための柔軟な枠組みを提供することが示された。
論文 参考訳(メタデータ) (2020-06-07T15:10:42Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。