論文の概要: Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability
- arxiv url: http://arxiv.org/abs/2409.16824v1
- Date: Wed, 25 Sep 2024 11:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:05:48.667479
- Title: Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability
- Title(参考訳): 部分観測可能性下での深部強化学習のための状態空間層の不確かさ表現
- Authors: Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters,
- Abstract要約: 線形状態空間モデルにおいて閉形式ガウス推論を行う独立なカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理している。
実験により、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れており、他のステートフルモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 59.758009422067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal decision-making under partial observability requires reasoning about the uncertainty of the environment's hidden state. However, most reinforcement learning architectures handle partial observability with sequence models that have no internal mechanism to incorporate uncertainty in their hidden state representation, such as recurrent neural networks, deterministic state-space models and transformers. Inspired by advances in probabilistic world models for reinforcement learning, we propose a standalone Kalman filter layer that performs closed-form Gaussian inference in linear state-space models and train it end-to-end within a model-free architecture to maximize returns. Similar to efficient linear recurrent layers, the Kalman filter layer processes sequential data using a parallel scan, which scales logarithmically with the sequence length. By design, Kalman filter layers are a drop-in replacement for other recurrent layers in standard model-free architectures, but importantly they include an explicit mechanism for probabilistic filtering of the latent state representation. Experiments in a wide variety of tasks with partial observability show that Kalman filter layers excel in problems where uncertainty reasoning is key for decision-making, outperforming other stateful models.
- Abstract(参考訳): 部分的な可観測性の下での最適決定は、環境の隠れた状態の不確実性について推論する必要がある。
しかし、ほとんどの強化学習アーキテクチャは、リカレントニューラルネットワーク、決定論的状態空間モデル、トランスフォーマーなどの隠された状態表現に不確実性を組み込む内部メカニズムを持たないシーケンスモデルで部分的観測性を扱う。
強化学習のための確率論的世界モデルの発展に触発されて、線形状態空間モデルにおいて閉形式ガウス推論を行い、それをモデルフリーアーキテクチャ内でエンドツーエンドにトレーニングし、リターンを最大化するカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理し、シーケンス長と対数的にスケールする。
設計上は、Kalmanフィルタ層は標準モデルフリーアーキテクチャにおける他の繰り返しレイヤの代替となるが、重要なことは、潜在状態表現の確率的フィルタリングの明確なメカニズムを含むことである。
部分可観測性を持つ様々なタスクの実験では、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れていることが示され、他のステートフルモデルよりも優れている。
関連論文リスト
- Outlier-robust Kalman Filtering through Generalised Bayes [45.51425214486509]
我々は、状態空間モデルにおけるオンラインフィルタリングのための新しい、確実に堅牢でクローズドなベイズ更新ルールを導出する。
提案手法は, より少ない計算コストで, 他の頑健なフィルタリング手法に適合し, 性能が向上する。
論文 参考訳(メタデータ) (2024-05-09T09:40:56Z) - Last layer state space model for representation learning and uncertainty
quantification [0.0]
本稿では,低次元状態を学ぶための表現学習段階と,不確実性推定のための状態空間モデルという2つのステップで分類・回帰タスクを分解することを提案する。
我々は、状態空間をベースとした最後の層を追加することで、既存のトレーニング済みニューラルネットワーク上に予測分布を推定する方法を実証する。
我々のモデルは、未知あるいは不利用可能な変数のため、ノイズの多いデータ構造を考慮し、予測に対して信頼区間を提供することができる。
論文 参考訳(メタデータ) (2023-07-04T08:37:37Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - On Uncertainty in Deep State Space Models for Model-Based Reinforcement
Learning [21.63642325390798]
RSSMは最適下推定方式を用いており、この推定を用いて訓練されたモデルは、基底真理系のアレター的不確かさを過大評価していることを示す。
そこで本稿では,変分リカレントカルマンネットワーク(VRKN)と呼ばれる,アレタリックおよびてんかんの不確かさをモデル化するための,よく理解されたコンポーネントに基づく代替手法を提案する。
実験の結果,RSSMの代わりにVRKNを用いることで,アレータリック不確実性を適切に把握するタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-10-17T16:59:48Z) - Robust and Provably Monotonic Networks [0.0]
深層学習モデルのリプシッツ定数を制約する新しい手法を提案する。
LHCbのリアルタイムデータ処理システムにおいて, 強靭で解釈可能な判別器を学習するために, アルゴリズムがどのように使われたかを示す。
論文 参考訳(メタデータ) (2021-11-30T19:01:32Z) - Unsupervised Learned Kalman Filtering [84.18625250574853]
教師なし適応は、KalmanNetのハイブリッドモデルベース/データ駆動アーキテクチャを活用することで達成される。
我々は、ノイズ統計が未知の場合、教師なしのKalmanNetが教師なし学習でKalmanNetと同じような性能を達成することを数値的に示す。
論文 参考訳(メタデータ) (2021-10-18T04:04:09Z) - KalmanNet: Neural Network Aided Kalman Filtering for Partially Known
Dynamics [84.18625250574853]
KalmanNetは、データから学習し、非線形力学の下でKalmanフィルタを実行するリアルタイム状態推定器である。
我々は、KalmanNetが非線形性とモデルミスマッチを克服し、古典的なフィルタリング手法より優れていることを数値的に示す。
論文 参考訳(メタデータ) (2021-07-21T12:26:46Z) - Neural Kalman Filtering [62.997667081978825]
カルマンフィルタの勾配差近似は,差分重み付き予測誤差を持つ局所計算のみを必要とすることを示す。
また、同じスキームの下では、ヘビアン可塑性に直接対応する学習規則で動的モデルを適応的に学習することが可能であることを示す。
論文 参考訳(メタデータ) (2021-02-19T16:43:15Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。