論文の概要: Recurrent networks, hidden states and beliefs in partially observable
environments
- arxiv url: http://arxiv.org/abs/2208.03520v1
- Date: Sat, 6 Aug 2022 13:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:32:51.310880
- Title: Recurrent networks, hidden states and beliefs in partially observable
environments
- Title(参考訳): 部分観測可能な環境における再帰的ネットワーク、隠れ状態、信念
- Authors: Gaspard Lambrechts, Adrien Bolland, Damien Ernst
- Abstract要約: 強化学習は、動的に未知の環境との相互作用から最適な政策を学ぶことを目的としている。
隠れた状態では、部分的に観測可能な環境のQ-関数を近似した繰り返しニューラルネットワークが、最適な行動を取るという信念の関連する部分と相関する十分な統計を歴史から再現することを示す。
- 参考スコア(独自算出の注目度): 3.4066110654930473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning aims to learn optimal policies from interaction with
environments whose dynamics are unknown. Many methods rely on the approximation
of a value function to derive near-optimal policies. In partially observable
environments, these functions depend on the complete sequence of observations
and past actions, called the history. In this work, we show empirically that
recurrent neural networks trained to approximate such value functions
internally filter the posterior probability distribution of the current state
given the history, called the belief. More precisely, we show that, as a
recurrent neural network learns the Q-function, its hidden states become more
and more correlated with the beliefs of state variables that are relevant to
optimal control. This correlation is measured through their mutual information.
In addition, we show that the expected return of an agent increases with the
ability of its recurrent architecture to reach a high mutual information
between its hidden states and the beliefs. Finally, we show that the mutual
information between the hidden states and the beliefs of variables that are
irrelevant for optimal control decreases through the learning process. In
summary, this work shows that in its hidden states, a recurrent neural network
approximating the Q-function of a partially observable environment reproduces a
sufficient statistic from the history that is correlated to the relevant part
of the belief for taking optimal actions.
- Abstract(参考訳): 強化学習は、動的に未知な環境との相互作用から最適方針を学ぶことを目的としている。
多くの手法は値関数の近似に頼り、ほぼ最適ポリシーを導出する。
部分的に観測可能な環境では、これらの関数は履歴と呼ばれる観測と過去の行動の完全な順序に依存する。
本研究では,そのような値関数を近似するために訓練されたリカレントニューラルネットワークが,その歴史が与えられた状態の後方確率分布を内部的にフィルタすることを示す。
より正確には、リカレントニューラルネットワークがQ-関数を学習するにつれて、その隠れた状態が、最適制御に関連する状態変数の信念とますます相関していることが示される。
この相関は相互情報によって測定される。
さらに,エージェントの期待リターンは,その隠れた状態と信念の間の高い相互情報に達するために,その再帰的なアーキテクチャの能力によって増加することを示した。
最後に,隠蔽状態と最適制御に無関係な変数の信念との相互情報を学習過程を通じて減少させることを示す。
要約すると、その隠れた状態において、部分的に観測可能な環境のq関数を近似する再帰的ニューラルネットワークは、最適な行動を取るための信念の関連部分と関連付けられた履歴から十分な統計を再現する。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - On the role of feedback in visual processing: a predictive coding
perspective [0.6193838300896449]
我々は、フィードフォワード視覚処理のモデルとして深層畳み込みネットワーク(CNN)を検討し、予測符号化(PC)ダイナミクスを実装した。
ノイズレベルが増加するにつれて、ネットワークはますますトップダウンの予測に依存している。
さらに,PCダイナミクスを実装するネットワークの精度は,等価なフォワードネットワークに比べて時間経過とともに著しく向上する。
論文 参考訳(メタデータ) (2021-06-08T10:07:23Z) - Data-driven discovery of interacting particle systems using Gaussian
processes [3.0938904602244346]
本研究では,2次相互作用粒子系における距離に基づく相互作用則の発見について検討する。
本稿では,潜在相互作用カーネル関数をガウス過程としてモデル化する学習手法を提案する。
異なる集団行動を示すシステムにおける数値的な結果から,ノイズの少ない軌道データから,我々のアプローチを効果的に学習することを示す。
論文 参考訳(メタデータ) (2021-06-04T22:00:53Z) - Toward Understanding the Feature Learning Process of Self-supervised
Contrastive Learning [43.504548777955854]
本研究では,その特徴学習過程を解析することにより,ニューラルネットワークの特徴表現のコントラスト学習について検討する。
textbfReLUネットワークを用いたコントラスト学習は、適切な拡張が採用されれば、所望のスパース特徴を確実に学習できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T16:42:09Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。