論文の概要: Discriminative Particle Filter Reinforcement Learning for Complex
Partial Observations
- arxiv url: http://arxiv.org/abs/2002.09884v1
- Date: Sun, 23 Feb 2020 11:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:02:03.391663
- Title: Discriminative Particle Filter Reinforcement Learning for Complex
Partial Observations
- Title(参考訳): 複合部分観測のための分別粒子フィルタ強化学習
- Authors: Xiao Ma, Peter Karkus, David Hsu, Wee Sun Lee, Nan Ye
- Abstract要約: 本稿では,複雑な部分的観察のための新しい強化学習フレームワークDPFRLを提案する。
DPFRLは、時間とともに部分的な観察を伴う明示的な推論のために、ニューラルネットワークポリシーで微分可能な粒子フィルタを符号化する。
標準的な生成モデルではなく差別的更新を使用することで,性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 30.942187487937012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning is successful in decision making for
sophisticated games, such as Atari, Go, etc. However, real-world decision
making often requires reasoning with partial information extracted from complex
visual observations. This paper presents Discriminative Particle Filter
Reinforcement Learning (DPFRL), a new reinforcement learning framework for
complex partial observations. DPFRL encodes a differentiable particle filter in
the neural network policy for explicit reasoning with partial observations over
time. The particle filter maintains a belief using learned discriminative
update, which is trained end-to-end for decision making. We show that using the
discriminative update instead of standard generative models results in
significantly improved performance, especially for tasks with complex visual
observations, because they circumvent the difficulty of modeling complex
observations that are irrelevant to decision making. In addition, to extract
features from the particle belief, we propose a new type of belief feature
based on the moment generating function. DPFRL outperforms state-of-the-art
POMDP RL models in Flickering Atari Games, an existing POMDP RL benchmark, and
in Natural Flickering Atari Games, a new, more challenging POMDP RL benchmark
introduced in this paper. Further, DPFRL performs well for visual navigation
with real-world data in the Habitat environment.
- Abstract(参考訳): 深層強化学習は、AtariやGoといった高度なゲームの意思決定に成功している。
しかし、実世界の意思決定は複雑な視覚的観察から抽出された部分的な情報による推論を必要とすることが多い。
本稿では,複雑な部分観測のための新しい強化学習フレームワークであるdpfrl(disriminative particle filter reinforcement learning)を提案する。
DPFRLは、時間とともに部分的な観察を伴う明示的な推論のために、ニューラルネットワークポリシーで微分可能な粒子フィルタを符号化する。
粒子フィルタは、学習した識別的更新を用いて信念を維持し、意思決定のためにエンドツーエンドに訓練される。
標準生成モデルの代わりに識別更新を使用することで、特に複雑な視覚観察を伴うタスクにおいて、意思決定と無関係な複雑な観察をモデル化することの難しさを回避し、性能が著しく向上することが示された。
また,粒子の信念から特徴を抽出するために,モーメント生成関数に基づく新しいタイプの信念特徴を提案する。
DPFRLは、既存のPOMDP RLベンチマークであるFlickering Atari Gamesと、新しいより挑戦的なPOMDP RLベンチマークであるNatural Flickering Atari Gamesにおいて、最先端のPOMDP RLモデルよりも優れている。
さらに、DPFRLは、ハビタット環境における実世界のデータを用いた視覚ナビゲーションによく機能する。
関連論文リスト
- Face Forgery Detection with Elaborate Backbone [50.914676786151574]
Face Forgery Detectionは、デジタル顔が本物か偽物かを決定することを目的としている。
以前のFFDモデルは、偽造の手がかりを表現および抽出するために既存のバックボーンを直接使用していた。
本稿では,実顔データセットを用いた自己教師型学習でVTネットワークを活用することで,バックボーンの事前トレーニングを提案する。
次に、多様な偽の手がかりを抽出するバックボーンの能力を強化するために、競争力のあるバックボーンの微調整フレームワークを構築します。
論文 参考訳(メタデータ) (2024-09-25T13:57:16Z) - An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文 参考訳(メタデータ) (2021-12-02T17:48:26Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Federated Ensemble Model-based Reinforcement Learning in Edge Computing [21.840086997141498]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散機械学習パラダイムである。
モデルベースRLとアンサンブル知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用して、クライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
論文 参考訳(メタデータ) (2021-09-12T16:19:10Z) - Contrastive Variational Reinforcement Learning for Complex Observations [39.98639686743489]
本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。
CVRLは、潜伏状態と観測者の相互情報を識別的に最大化することで、対照的な変動モデルを学習する。
標準的なMujocoタスク上で、最先端のモデルベースのDRLメソッドと同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-08-06T02:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。