論文の概要: Improving Training Result of Partially Observable Markov Decision
Process by Filtering Beliefs
- arxiv url: http://arxiv.org/abs/2101.02178v1
- Date: Tue, 5 Jan 2021 04:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 21:05:02.448324
- Title: Improving Training Result of Partially Observable Markov Decision
Process by Filtering Beliefs
- Title(参考訳): 部分観測可能なマルコフ決定過程のフィルタリングによるトレーニング結果の改善
- Authors: Oscar LiJen Hsu
- Abstract要約: 方法検索とすべての類似の信念のペアを比較します。
同様の信念は制御政策に無意味な影響を与えるため、訓練時間を短縮するためにその信念は濾過される。
実験結果から,提案手法は,学習結果の質や手法の効率の点で,ポイントベース近似POMDPよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study I proposed a filtering beliefs method for improving performance
of Partially Observable Markov Decision Processes(POMDPs), which is a method
wildly used in autonomous robot and many other domains concerning control
policy. My method search and compare every similar belief pair. Because a
similar belief have insignificant influence on control policy, the belief is
filtered out for reducing training time. The empirical results show that the
proposed method outperforms the point-based approximate POMDPs in terms of the
quality of training results as well as the efficiency of the method.
- Abstract(参考訳): 本研究では,自律型ロボットや制御方針に関する多くの領域で広く用いられている,部分観測可能なマルコフ決定プロセス(POMDP)の性能向上のためのフィルタリング信念手法を提案する。
私の方法では 類似の信念のペアを 検索して比較します
同様の信念は制御政策に無意味な影響を与えるため、訓練時間を短縮するためにその信念は濾過される。
実験結果から,提案手法は,学習結果の質や手法の効率の点で,ポイントベース近似POMDPよりも優れていることが示された。
関連論文リスト
- vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement [57.926269845305804]
本研究は、アンサンブル批評家が政策改善に与える影響について検討する。
本稿では、政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入する。
政策改善プロセスにおいて、勾配方向の不確実性の低い遷移の方が信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2024-05-14T14:18:25Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Stochastic Intervention for Causal Inference via Reinforcement Learning [7.015556609676951]
因果推論の中心は介入戦略の処理効果推定である。
既存の方法はほとんどが決定論的治療に限られており、異なる治療下での結果を比較する。
介入に対する治療効果を推定するための新しい効果的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-28T00:11:22Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。