論文の概要: Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems
- arxiv url: http://arxiv.org/abs/2002.04175v1
- Date: Tue, 11 Feb 2020 02:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:31:21.232605
- Title: Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems
- Title(参考訳): POMDPの強化学習:分割ロールアウトと政策イテレーションと自律的シーケンス修復問題への応用
- Authors: Sushmita Bhattacharya, Sahil Badyal, Thomas Wheeler, Stephanie Gil,
Dimitri Bertsekas
- Abstract要約: 有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。
本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
- 参考スコア(独自算出の注目度): 2.6389022766562236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider infinite horizon discounted dynamic programming
problems with finite state and control spaces, and partial state observations.
We discuss an algorithm that uses multistep lookahead, truncated rollout with a
known base policy, and a terminal cost function approximation. This algorithm
is also used for policy improvement in an approximate policy iteration scheme,
where successive policies are approximated by using a neural network
classifier. A novel feature of our approach is that it is well suited for
distributed computation through an extended belief space formulation and the
use of a partitioned architecture, which is trained with multiple neural
networks. We apply our methods in simulation to a class of sequential repair
problems where a robot inspects and repairs a pipeline with potentially several
rupture sites under partial information about the state of the pipeline.
- Abstract(参考訳): 本稿では,有限状態と制御空間,および部分状態観測を用いた無限遠地平線割引動的計画問題を考える。
本稿では,マルチステップルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて議論する。
このアルゴリズムは、ニューラルネットワーク分類器を用いて逐次ポリシーを近似する近似ポリシー反復スキームにおけるポリシー改善にも用いられる。
提案手法の新たな特徴は,拡張信念空間の定式化と,複数のニューラルネットワークでトレーニングされた分割アーキテクチャの利用による分散計算に適している点である。
ロボットがパイプラインの状態に関する部分的な情報に基づいて、複数の破壊箇所を持つパイプラインを検査し、修復するシーケンシャル修復問題に対して、シミュレーションの手法を適用する。
関連論文リスト
- Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - An application of the splitting-up method for the computation of a
neural network representation for the solution for the filtering equations [68.8204255655161]
フィルタ方程式は、数値天気予報、金融、工学など、多くの現実の応用において中心的な役割を果たす。
フィルタリング方程式の解を近似する古典的なアプローチの1つは、分割法と呼ばれるPDEにインスパイアされた方法を使うことである。
我々はこの手法をニューラルネットワーク表現と組み合わせて、信号プロセスの非正規化条件分布の近似を生成する。
論文 参考訳(メタデータ) (2022-01-10T11:01:36Z) - The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation [14.528756508275622]
線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
論文 参考訳(メタデータ) (2021-09-28T01:20:08Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。