論文の概要: AKF-SR: Adaptive Kalman Filtering-based Successor Representation
- arxiv url: http://arxiv.org/abs/2204.00049v1
- Date: Thu, 31 Mar 2022 19:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:50:25.137357
- Title: AKF-SR: Adaptive Kalman Filtering-based Successor Representation
- Title(参考訳): AKF-SR:適応カルマンフィルタに基づく継承表現
- Authors: Parvin Malekzadeh, Mohammad Salimibeni, Ming Hou, Arash Mohammadi,
Konstantinos N. Plataniotis
- Abstract要約: 後継表現(SR)ベースのモデルは、モデルフリーアルゴリズムよりも高速にゴール位置の変更や報酬関数に適応する。
このような表現が、動物が意思決定の不確実性を管理するのにどのように役立つかは分かっていない。
本稿では、適応カルマンフィルタに基づく逐次表現(AKF-SR)と呼ばれるカルマンフィルタに基づくSRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.927109394812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in neuroscience suggest that Successor Representation
(SR)-based models provide adaptation to changes in the goal locations or reward
function faster than model-free algorithms, together with lower computational
cost compared to that of model-based algorithms. However, it is not known how
such representation might help animals to manage uncertainty in their
decision-making. Existing methods for SR learning do not capture uncertainty
about the estimated SR. In order to address this issue, the paper presents a
Kalman filter-based SR framework, referred to as Adaptive Kalman
Filtering-based Successor Representation (AKF-SR). First, Kalman temporal
difference approach, which is a combination of the Kalman filter and the
temporal difference method, is used within the AKF-SR framework to cast the SR
learning procedure into a filtering problem to benefit from the uncertainty
estimation of the SR, and also decreases in memory requirement and sensitivity
to model's parameters in comparison to deep neural network-based algorithms. An
adaptive Kalman filtering approach is then applied within the proposed AKF-SR
framework in order to tune the measurement noise covariance and measurement
mapping function of Kalman filter as the most important parameters affecting
the filter's performance. Moreover, an active learning method that exploits the
estimated uncertainty of the SR to form the behaviour policy leading to more
visits to less certain values is proposed to improve the overall performance of
an agent in terms of received rewards while interacting with its environment.
- Abstract(参考訳): 神経科学における最近の研究は、後継表現(SR)ベースのモデルが、モデルベースアルゴリズムと比較して計算コストの低いモデルフリーアルゴリズムよりもゴール位置や報酬関数の変化に適応できることを示唆している。
しかし、そのような表現が、動物が意思決定の不確実性を管理するのにどのように役立つかは分かっていない。
既存のsr学習法は推定srに関する不確かさを捉えていない。
この問題に対処するため,本稿では,適応カルマンフィルタに基づく逐次表現(AKF-SR)と呼ばれるカルマンフィルタに基づくSRフレームワークを提案する。
まず、カルマンフィルタと時間差分法の組み合わせであるカルマン時間差分法を用いて、AKF-SRフレームワーク内でSR学習手順をフィルタ問題にキャストし、SRの不確実性推定の恩恵を受けるとともに、深層ニューラルネットワークベースのアルゴリズムと比較して、モデルパラメータに対するメモリ要求と感度を低下させる。
次に, akf-srフレームワーク内で適応カルマンフィルタ法を適用し, フィルタの性能に影響を与える最も重要なパラメータとしてカルマンフィルタの測定ノイズ共分散と計測マッピング関数をチューニングする。
さらに、srの推定不確実性を利用して、より特定の値により多くの訪問につながる行動方針を形成するアクティブラーニング手法を提案し、その環境と相互作用しながら受信された報酬の観点でエージェントの全体的なパフォーマンスを向上させる。
関連論文リスト
- Joint State Estimation and Noise Identification Based on Variational
Optimization [8.536356569523127]
CVIAKFと呼ばれる共役計算変分推論に基づく新しい適応カルマンフィルタ法を提案する。
CVIAKFの有効性は、目標追尾のための合成および実世界のデータセットを通して検証される。
論文 参考訳(メタデータ) (2023-12-15T07:47:03Z) - Outlier-Insensitive Kalman Filtering: Theory and Applications [26.889182816155838]
本稿では,リニアカルマンフィルタの標準更新ステップの短い反復処理しか必要とせず,アウトリーチの有害な影響を軽減できるパラメータフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:33:28Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Outlier-Insensitive Kalman Filtering Using NUV Priors [24.413595920205907]
実際には、観測は外れ値によって破損し、カルマンフィルタ(KF)の性能を著しく損なう。
本研究では、各電位外乱を未知の分散確率変数(NUV)としてモデル化し、外乱に敏感なKFを提案する。
予測最大化(EM)と変動ロバスト性(AM)の両方を用いて、NUVs分散をオンラインで推定する。
論文 参考訳(メタデータ) (2022-10-12T11:00:13Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - KalmanNet: Neural Network Aided Kalman Filtering for Partially Known
Dynamics [84.18625250574853]
KalmanNetは、データから学習し、非線形力学の下でKalmanフィルタを実行するリアルタイム状態推定器である。
我々は、KalmanNetが非線形性とモデルミスマッチを克服し、古典的なフィルタリング手法より優れていることを数値的に示す。
論文 参考訳(メタデータ) (2021-07-21T12:26:46Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。