論文の概要: Sophisticated Inference
- arxiv url: http://arxiv.org/abs/2006.04120v1
- Date: Sun, 7 Jun 2020 11:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:32:45.429269
- Title: Sophisticated Inference
- Title(参考訳): 高度な推論
- Authors: Karl Friston, Lancelot Da Costa, Danijar Hafner, Casper Hesp, Thomas
Parr
- Abstract要約: アクティブ推論は、知覚的振る舞いの第一原理的な説明を提供する。
これは値関数を(ベイジアン)信念の関数に置き換える。
本稿では,高度な能動推論について考察する。
- 参考スコア(独自算出の注目度): 8.145323363883234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active inference offers a first principle account of sentient behaviour, from
which special and important cases can be derived, e.g., reinforcement learning,
active learning, Bayes optimal inference, Bayes optimal design, etc. Active
inference resolves the exploitation-exploration dilemma in relation to prior
preferences, by placing information gain on the same footing as reward or
value. In brief, active inference replaces value functions with functionals of
(Bayesian) beliefs, in the form of an expected (variational) free energy. In
this paper, we consider a sophisticated kind of active inference, using a
recursive form of expected free energy. Sophistication describes the degree to
which an agent has beliefs about beliefs. We consider agents with beliefs about
the counterfactual consequences of action for states of affairs and beliefs
about those latent states. In other words, we move from simply considering
beliefs about 'what would happen if I did that' to 'what would I believe about
what would happen if I did that'. The recursive form of the free energy
functional effectively implements a deep tree search over actions and outcomes
in the future. Crucially, this search is over sequences of belief states, as
opposed to states per se. We illustrate the competence of this scheme, using
numerical simulations of deep decision problems.
- Abstract(参考訳): 能動推論は、感性行動の第一原理的な説明であり、強化学習、能動学習、ベイズ最適推論、ベイズ最適設計など、特殊かつ重要な事例を導出することができる。
アクティブ推論は、情報ゲインを報酬や価値と同じ足場に配置することで、事前の嗜好に関連する搾取探索ジレンマを解決する。
簡単に言えば、活性推論は期待(変分)自由エネルギーの形で、値関数を(ベイズ的)信念の関数に置き換える。
本稿では, 期待自由エネルギーの帰納形式を用いて, 洗練された能動推論を考える。
ソフィケーション(Sophistication)とは、エージェントが信念を信じる程度を指す。
我々は,行動の反事実的結果に対する信念を持つエージェントと,それらの潜在状態に関する信念を考察する。
言い換えれば、単に「もしそうすれば何が起こるか」という信念から「もしそうしたら何が起こるか」へと移行したのである。
自由エネルギー関数の帰納形式は、将来的な行動や結果に対する深い木探索を効果的に実施する。
重要な点として、この探索は信念の状態の列の上にあり、それとは対照的である。
本稿では, 深部決定問題の数値シミュレーションを用いて, このスキームの能力について述べる。
関連論文リスト
- Reframing the Expected Free Energy: Four Formulations and a Unification [3.9121134770873733]
能動推論は期待される自由エネルギーに基づいている。
本稿では、これらの定式化を1つのルート予測自由エネルギー定義から導出する問題を定式化する。
論文 参考訳(メタデータ) (2024-02-22T11:38:43Z) - Observing Interventions: A logic for thinking about experiments [62.997667081978825]
本稿では,実験から学ぶ論理への第一歩について述べる。
我々のアプローチにとって重要なことは、介入の概念が(現実的または仮説的な)実験の形式的表現として使用できるという考えである。
提案された全ての論理系に対して、健全で完全な公理化を提供する。
論文 参考訳(メタデータ) (2021-11-25T09:26:45Z) - Active inference, Bayesian optimal design, and expected utility [1.433758865948252]
活性推論がベイズ決定理論とベイズ設計の最適原理を結合し、期待される自由エネルギーを最小化する方法について述べる。
情報探索行動の自然発生を可能にする、活発な推論のこの側面である。
我々のTmazeシミュレーションは、期待される自由エネルギーを最適化し、期待されるユーティリティを最適化し、純粋に悪用的な振る舞いを誘導することを示す。
論文 参考訳(メタデータ) (2021-09-21T20:56:32Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Prior Preference Learning from Experts:Designing a Reward with Active
Inference [1.1602089225841632]
能動推論は強化学習(RL)アルゴリズムを用いて解釈できると主張している。
先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-22T04:03:45Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Whence the Expected Free Energy? [68.8204255655161]
我々は、期待される自由エネルギー(EFE)が単に「未来の自由エネルギー」ではないことを示した。
そして、新しい目標、期待される未来自由エネルギー(FEEF)を開発する。
論文 参考訳(メタデータ) (2020-04-17T09:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。