論文の概要: Active Inference and Reinforcement Learning: A unified inference on
continuous state and action spaces under partially observability
- arxiv url: http://arxiv.org/abs/2212.07946v2
- Date: Fri, 12 Jan 2024 16:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:54:43.043064
- Title: Active Inference and Reinforcement Learning: A unified inference on
continuous state and action spaces under partially observability
- Title(参考訳): アクティブ推論と強化学習:部分観測可能性下での連続状態と行動空間の統一推論
- Authors: Parvin Malekzadeh and Konstantinos N. Plataniotis
- Abstract要約: 多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
- 参考スコア(独自算出の注目度): 23.11272879805885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has garnered significant attention for developing
decision-making agents that aim to maximize rewards, specified by an external
supervisor, within fully observable environments. However, many real-world
problems involve partial observations, formulated as partially observable
Markov decision processes (POMDPs). Previous studies have tackled RL in POMDPs
by either incorporating the memory of past actions and observations or by
inferring the true state of the environment from observed data. However,
aggregating observed data over time becomes impractical in continuous spaces.
Moreover, inference-based RL approaches often require many samples to perform
well, as they focus solely on reward maximization and neglect uncertainty in
the inferred state. Active inference (AIF) is a framework formulated in POMDPs
and directs agents to select actions by minimizing a function called expected
free energy (EFE). This supplies reward-maximizing (exploitative) behaviour, as
in RL, with information-seeking (exploratory) behaviour. Despite this
exploratory behaviour of AIF, its usage is limited to discrete spaces due to
the computational challenges associated with EFE. In this paper, we propose a
unified principle that establishes a theoretical connection between AIF and RL,
enabling seamless integration of these two approaches and overcoming their
aforementioned limitations in continuous space POMDP settings. We substantiate
our findings with theoretical analysis, providing novel perspectives for
utilizing AIF in the design of artificial agents. Experimental results
demonstrate the superior learning capabilities of our method in solving
continuous space partially observable tasks. Notably, our approach harnesses
information-seeking exploration, enabling it to effectively solve reward-free
problems and rendering explicit task reward design by an external supervisor
optional.
- Abstract(参考訳): 強化学習(rl)は、完全に観察可能な環境において、外部の監督者が指定する報酬を最大化することを目的とした意思決定エージェントの開発において、大きな注目を集めている。
しかし、現実世界の多くの問題は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化されている部分的な観測を含んでいる。
これまでの研究では、過去の行動や観測の記憶を取り入れたり、観測データから環境の本当の状態を推測することで、PMDPのRLに取り組みました。
しかし、観測データを時間をかけて集約することは連続空間では現実的ではない。
さらに、推論に基づくRLアプローチでは、報酬の最大化と推論状態の不確かさの無視にのみ焦点をあてるため、多くのサンプルをうまく動作させる必要があることが多い。
アクティブ推論(英: Active Inference、AIF)は、エージェントに期待自由エネルギー(EFE)と呼ばれる関数を最小化することで、選択アクションを指示するフレームワークである。
これは、rlのように、情報参照(探索)行動を伴う報酬最大化(探索)行動を提供する。
AIFの探索的な振る舞いにもかかわらず、その用途はEFEに関連する計算上の問題のために離散空間に限られている。
本稿では,AIFとRLの理論的関係を確立する統一原理を提案し,これら2つのアプローチをシームレスに統合し,上記の制約を連続空間POMDP設定で克服する。
我々は、AIFを人工エージェントの設計に活用するための新しい視点を提供する理論分析により、この知見を裏付ける。
実験の結果,連続空間を部分的に観測可能なタスクで解く方法の優れた学習能力が得られた。
特筆すべきは,情報探索を活用し,報酬のない問題を効果的に解決し,外部管理者による明示的なタスク報酬設計を任意に行うことである。
関連論文リスト
- Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Reinforcement Learning under Partial Observability Guided by Learned
Environment Models [1.1470070927586016]
本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。
提案手法は,マルコフ決定過程の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。
本稿では,6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。
論文 参考訳(メタデータ) (2022-06-23T13:55:13Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。