論文の概要: Reward Maximisation through Discrete Active Inference
- arxiv url: http://arxiv.org/abs/2009.08111v4
- Date: Mon, 11 Jul 2022 19:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:04:44.601205
- Title: Reward Maximisation through Discrete Active Inference
- Title(参考訳): 離散アクティブ推論による報酬最大化
- Authors: Lancelot Da Costa, Noor Sajid, Thomas Parr, Karl Friston, Ryan Smith
- Abstract要約: 報酬の最大化に最適なアクションを、アクティブな推論エージェントがどのように、いつ実行するかを示す。
能動推論がベルマン方程式の最適解を生成する条件を示す。
我々は,この分析を,能動推論と強化学習のより広い関係に関する議論に付加する。
- 参考スコア(独自算出の注目度): 1.2074552857379273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active inference is a probabilistic framework for modelling the behaviour of
biological and artificial agents, which derives from the principle of
minimising free energy. In recent years, this framework has successfully been
applied to a variety of situations where the goal was to maximise reward,
offering comparable and sometimes superior performance to alternative
approaches. In this paper, we clarify the connection between reward
maximisation and active inference by demonstrating how and when active
inference agents perform actions that are optimal for maximising reward.
Precisely, we show the conditions under which active inference produces the
optimal solution to the Bellman equation--a formulation that underlies several
approaches to model-based reinforcement learning and control. On partially
observed Markov decision processes, the standard active inference scheme can
produce Bellman optimal actions for planning horizons of 1, but not beyond. In
contrast, a recently developed recursive active inference scheme (sophisticated
inference) can produce Bellman optimal actions on any finite temporal horizon.
We append the analysis with a discussion of the broader relationship between
active inference and reinforcement learning.
- Abstract(参考訳): アクティブ推論(active inference)は、生物および人工エージェントの振る舞いをモデル化するための確率的枠組みであり、自由エネルギーの最小化の原理に由来する。
近年、このフレームワークは報酬の最大化を目標とする様々な状況にうまく適用され、代替手法に匹敵する、時には優れたパフォーマンスを提供する。
本稿では,アクティブ推論エージェントが報酬を最大化するのに最適な行動を行う方法と方法を示すことにより,報酬の最大化とアクティブ推論の関係を明らかにする。
具体的には,モデルに基づく強化学習と制御に対するいくつかのアプローチを基礎としたベルマン方程式の最適解を,能動推論が生成する条件を示す。
部分的に観測されたマルコフ決定過程において、標準能動推論スキームは1の計画地平線に対してベルマン最適作用を生成することができるが、それ以上ではない。
対照的に、最近開発された再帰的能動推論スキーム(sophisticated inference)は、任意の有限時間軸上のベルマン最適作用を生成することができる。
我々は,この分析を,能動推論と強化学習の幅広い関係に関する議論に付加する。
関連論文リスト
- Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Reinforcement Learning with Non-Cumulative Objective [12.906500431427716]
強化学習では、その目的は、ほぼ常にプロセスに沿った報酬に対する累積関数として定義される。
本稿では,そのような目的を最適化するための既存アルゴリズムの修正を提案する。
論文 参考訳(メタデータ) (2023-07-11T01:20:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes [8.710154439846816]
エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-29T11:53:40Z) - Active inference, Bayesian optimal design, and expected utility [1.433758865948252]
活性推論がベイズ決定理論とベイズ設計の最適原理を結合し、期待される自由エネルギーを最小化する方法について述べる。
情報探索行動の自然発生を可能にする、活発な推論のこの側面である。
我々のTmazeシミュレーションは、期待される自由エネルギーを最適化し、期待されるユーティリティを最適化し、純粋に悪用的な振る舞いを誘導することを示す。
論文 参考訳(メタデータ) (2021-09-21T20:56:32Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。