論文の概要: Successor Representation Active Inference
- arxiv url: http://arxiv.org/abs/2207.09897v1
- Date: Wed, 20 Jul 2022 13:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:16:23.668272
- Title: Successor Representation Active Inference
- Title(参考訳): 置換表現アクティブ推論
- Authors: Beren Millidge, Christopher L Buckley
- Abstract要約: ベイズフィルタリングの観点で後継表現の確率論的解釈を導出する。
代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入代入
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has uncovered close links between between classical reinforcement
learning algorithms, Bayesian filtering, and Active Inference which lets us
understand value functions in terms of Bayesian posteriors. An alternative, but
less explored, model-free RL algorithm is the successor representation, which
expresses the value function in terms of a successor matrix of expected future
state occupancies. In this paper, we derive the probabilistic interpretation of
the successor representation in terms of Bayesian filtering and thus design a
novel active inference agent architecture utilizing successor representations
instead of model-based planning. We demonstrate that active inference successor
representations have significant advantages over current active inference
agents in terms of planning horizon and computational cost. Moreover, we
demonstrate how the successor representation agent can generalize to changing
reward functions such as variants of the expected free energy.
- Abstract(参考訳): 最近の研究で、古典的な強化学習アルゴリズム、ベイズフィルタ、ベイズ後方からの価値関数を理解できるアクティブ推論との間の密接な関係が明らかになった。
別の選択肢として、モデルフリーのrlアルゴリズムは後続表現であり、将来の状態占有者の後続行列の観点から値関数を表現する。
本稿では,ベイズフィルタの観点からの後継表現の確率論的解釈を導出し,モデルに基づく計画ではなく後継表現を用いた新しいアクティブ推論エージェントアーキテクチャを設計する。
能動推論の後継表現は計画の地平と計算コストの観点から,現在の能動推論エージェントよりも大きなアドバンテージを持つことを実証する。
さらに,後継表現エージェントが期待自由エネルギーの変種など報酬関数の変更にどのように一般化できるかを実証する。
関連論文リスト
- When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination [10.24601148760979]
本研究では,このようなエージェントの性能向上のための,新しいトレーニング不要なアプローチを提案する。
我々は、推論されたエージェント状態を微調整するために、意思決定時に反復推論を適用する。
本手法は,視覚的3次元ナビゲーションタスクに適用した場合の再現精度とタスク性能の両面において一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-02-23T12:27:48Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Boosting Semi-Supervised Semantic Segmentation with Probabilistic
Representations [30.672426195148496]
本稿では,表現質を向上させるための確率的表現コントラスト学習フレームワークを提案する。
確率論の新しい視点からピクセルワイズ表現を定義する。
また,表現の信頼性を高めるため,分散分散の正規化も提案する。
論文 参考訳(メタデータ) (2022-10-26T12:47:29Z) - Bayesian Recurrent Units and the Forward-Backward Algorithm [91.39701446828144]
ベイズの定理を用いることで、ユニットワイド・リカレンスとフォワード・バックワードアルゴリズムに類似した後方再帰を導出する。
その結果得られたベイジアン再帰ユニットは、ディープラーニングフレームワーク内で再帰ニューラルネットワークとして統合することができる。
音声認識の実験は、最先端の繰り返しアーキテクチャの最後に派生したユニットを追加することで、訓練可能なパラメータの点で非常に低コストで性能を向上させることを示唆している。
論文 参考訳(メタデータ) (2022-07-21T14:00:52Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Probabilistic Attention for Interactive Segmentation [0.0]
変圧器における標準的な点積注意は,最大Aポストエリオーリ(MAP)推論の特別な場合であることを示す。
提案手法は,キーおよび値モデルパラメータのオンライン適応に期待値最大化アルゴリズムを用いることを提案する。
論文 参考訳(メタデータ) (2021-06-23T00:19:43Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Realising Active Inference in Variational Message Passing: the
Outcome-blind Certainty Seeker [3.5450828190071655]
本稿では、離散時間および状態空間におけるアクティブ推論フレームワークの完全な数学的処理について述べる。
アクティブ推論と変動メッセージパッシングの理論的関係を活用します。
完全因子化変分分布を用いることで, 期待自由エネルギーの簡易化が図れる。
論文 参考訳(メタデータ) (2021-04-23T19:40:55Z) - Reward Maximisation through Discrete Active Inference [1.2074552857379273]
報酬の最大化に最適なアクションを、アクティブな推論エージェントがどのように、いつ実行するかを示す。
能動推論がベルマン方程式の最適解を生成する条件を示す。
我々は,この分析を,能動推論と強化学習のより広い関係に関する議論に付加する。
論文 参考訳(メタデータ) (2020-09-17T07:13:59Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。