論文の概要: Value of Information and Reward Specification in Active Inference and POMDPs
- arxiv url: http://arxiv.org/abs/2408.06542v1
- Date: Tue, 13 Aug 2024 00:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:56:02.738972
- Title: Value of Information and Reward Specification in Active Inference and POMDPs
- Title(参考訳): アクティブ推論とPMDPにおける情報の価値とリワード仕様
- Authors: Ran Wei,
- Abstract要約: 期待される自由エネルギー(EFE)は、活動的推論の中心的な量である。
EFEは情報値を用いてベイズ最適RLポリシーを近似することを示す。
- 参考スコア(独自算出の注目度): 7.120454740315046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expected free energy (EFE) is a central quantity in active inference which has recently gained popularity due to its intuitive decomposition of the expected value of control into a pragmatic and an epistemic component. While numerous conjectures have been made to justify EFE as a decision making objective function, the most widely accepted is still its intuitiveness and resemblance to variational free energy in approximate Bayesian inference. In this work, we take a bottom up approach and ask: taking EFE as given, what's the resulting agent's optimality gap compared with a reward-driven reinforcement learning (RL) agent, which is well understood? By casting EFE under a particular class of belief MDP and using analysis tools from RL theory, we show that EFE approximates the Bayes optimal RL policy via information value. We discuss the implications for objective specification of active inference agents.
- Abstract(参考訳): 期待される自由エネルギー (EFE) は, 期待値の直感的な分解により, 現実的な推論の中心的な量である。
EFEを決定的目的関数として正当化する多くの予想がなされているが、最も広く受け入れられているのは、その直観性と近似ベイズ予想における変分自由エネルギーとの類似性である。
本研究では、ボトムアップアプローチを採用し、EFEを前提として、報酬駆動強化学習(RL)エージェントと比較して、結果として生じるエージェントの最適性ギャップはどのようなものか、よく理解されています。
特定の信念のMDPでEFEを鋳造し、RL理論の分析ツールを用いて、EFEがベイズ最適RLポリシーを情報値で近似することを示す。
本稿では,アクティブ推論エージェントの客観的仕様の意義について論じる。
関連論文リスト
- For Better or Worse: The Impact of Counterfactual Explanations'
Directionality on User Behavior in xAI [6.883906273999368]
対物的説明(CFE)は説明可能な人工知能(xAI)の一般的なアプローチである
CFEは、事実状態(上向きCFE)よりも優れているシナリオや、事実状態(下向きCFE)よりも悪いシナリオを記述します。
本研究では,CFEの方向性が参加者の行動と経験に及ぼす影響を自動システムから新たな知識を引き出すために比較した。
論文 参考訳(メタデータ) (2023-06-13T09:16:38Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - Pseudo-Spherical Contrastive Divergence [119.28384561517292]
エネルギーベースモデルの最大学習確率を一般化するために,擬球面コントラスト分散(PS-CD)を提案する。
PS-CDは難解な分割関数を避け、学習目的の一般化されたファミリーを提供する。
論文 参考訳(メタデータ) (2021-11-01T09:17:15Z) - Active inference, Bayesian optimal design, and expected utility [1.433758865948252]
活性推論がベイズ決定理論とベイズ設計の最適原理を結合し、期待される自由エネルギーを最小化する方法について述べる。
情報探索行動の自然発生を可能にする、活発な推論のこの側面である。
我々のTmazeシミュレーションは、期待される自由エネルギーを最適化し、期待されるユーティリティを最適化し、純粋に悪用的な振る舞いを誘導することを示す。
論文 参考訳(メタデータ) (2021-09-21T20:56:32Z) - Active Inference and Epistemic Value in Graphical Models [3.9457043990895904]
自由エネルギー原則(FEP)は、生物エージェントが環境の生成モデルに関して変動自由エネルギー(VFE)を最小化するために環境を知覚し、相互作用することを仮定している。
本稿では,制約されたBethe Free Energy(CBFE)の観点からの疫学的行動にアプローチする。
シミュレーションされたT迷路環境を計画し, 相互作用させることによりCBFEの挙動を明らかにする。
論文 参考訳(メタデータ) (2021-09-01T16:43:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Prior Preference Learning from Experts:Designing a Reward with Active
Inference [1.1602089225841632]
能動推論は強化学習(RL)アルゴリズムを用いて解釈できると主張している。
先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-22T04:03:45Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Whence the Expected Free Energy? [68.8204255655161]
我々は、期待される自由エネルギー(EFE)が単に「未来の自由エネルギー」ではないことを示した。
そして、新しい目標、期待される未来自由エネルギー(FEEF)を開発する。
論文 参考訳(メタデータ) (2020-04-17T09:06:56Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。