論文の概要: POMDPs in Continuous Time and Discrete Spaces
- arxiv url: http://arxiv.org/abs/2010.01014v3
- Date: Mon, 26 Oct 2020 12:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:24:07.141402
- Title: POMDPs in Continuous Time and Discrete Spaces
- Title(参考訳): 連続時間と離散空間におけるPOMDP
- Authors: Bastian Alt, Matthias Schultheis, Heinz Koeppl
- Abstract要約: このような離散状態と行動空間系における最適決定の問題は、部分的可観測性の下で考慮する。
連続時間部分観測可能なマルコフ決定過程(POMDP)の数学的記述を与える。
本稿では,価値関数の近似を学習することで,決定問題をオフラインで解く手法と,深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.463792234064805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many processes, such as discrete event systems in engineering or population
dynamics in biology, evolve in discrete space and continuous time. We consider
the problem of optimal decision making in such discrete state and action space
systems under partial observability. This places our work at the intersection
of optimal filtering and optimal control. At the current state of research, a
mathematical description for simultaneous decision making and filtering in
continuous time with finite state and action spaces is still missing. In this
paper, we give a mathematical description of a continuous-time partial
observable Markov decision process (POMDP). By leveraging optimal filtering
theory we derive a Hamilton-Jacobi-Bellman (HJB) type equation that
characterizes the optimal solution. Using techniques from deep learning we
approximately solve the resulting partial integro-differential equation. We
present (i) an approach solving the decision problem offline by learning an
approximation of the value function and (ii) an online algorithm which provides
a solution in belief space using deep reinforcement learning. We show the
applicability on a set of toy examples which pave the way for future methods
providing solutions for high dimensional problems.
- Abstract(参考訳): 工学における離散事象系や生物学における集団力学のような多くのプロセスは、離散空間と連続時間で進化する。
このような離散状態と行動空間系における最適決定の問題は、部分観測可能性の下で考慮する。
これにより、最適フィルタリングと最適制御の交差点に作業を置く。
現状では、有限状態と作用空間を持つ連続時間における同時意思決定とフィルタリングのための数学的記述はいまだ欠落している。
本稿では,連続時間部分観測可能なマルコフ決定過程(POMDP)を数学的に記述する。
最適フィルタリング理論を活用することで、最適解を特徴づけるハミルトン・ヤコビ・ベルマン型方程式を導出する。
深層学習の手法を用いて,得られた部分積分微分方程式を概ね解く。
ご紹介します
(i)価値関数の近似を学習して意思決定問題をオフラインで解決するアプローチ
(ii)深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズム。
高次元問題に対する解決策を提供する将来の方法への道を開くおもちゃの例のセットに適用性を示す。
関連論文リスト
- Deep Learning Algorithms for Mean Field Optimal Stopping in Finite Space and Discrete Time [3.350071725971209]
本研究は, エージェント数が無限に近づくにつれて得られる平均場最適停止(MFOS)問題を考察する。
本研究では,2つの深層学習手法を提案する。一方は最適決定を学習するために全軌道をシミュレートし,他方は逆方向誘導でDPPを利用する。
空間次元最大300の6つの異なる問題に対する数値実験により,これらの手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-11T14:27:17Z) - A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Measurement Simplification in ρ-POMDP with Performance Guarantees [6.129902017281406]
不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
論文 参考訳(メタデータ) (2023-09-19T15:40:42Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Deep Graphic FBSDEs for Opinion Dynamics Stochastic Control [27.38625075499457]
本稿では,動的・コスト関数における平均場項結合を用いた意見力学の最適制御問題の解法として,スケーラブルなディープラーニング手法を提案する。
提案したフレームワークは,超大規模問題に対する将来の応用の可能性を開く。
論文 参考訳(メタデータ) (2022-04-05T22:07:32Z) - An application of the splitting-up method for the computation of a
neural network representation for the solution for the filtering equations [68.8204255655161]
フィルタ方程式は、数値天気予報、金融、工学など、多くの現実の応用において中心的な役割を果たす。
フィルタリング方程式の解を近似する古典的なアプローチの1つは、分割法と呼ばれるPDEにインスパイアされた方法を使うことである。
我々はこの手法をニューラルネットワーク表現と組み合わせて、信号プロセスの非正規化条件分布の近似を生成する。
論文 参考訳(メタデータ) (2022-01-10T11:01:36Z) - Probabilistic Numerical Method of Lines for Time-Dependent Partial
Differential Equations [20.86460521113266]
現在の最先端のPDEソルバは、空間次元と時間次元を別々に、シリアルに、ブラックボックスアルゴリズムで扱います。
この問題を解決するために,ライン法と呼ばれる手法の確率的版を導入する。
空間不確かさと時間不確かさの連成定量化は、十分に調整されたODEソルバの性能上の利点を失うことなく実現できる。
論文 参考訳(メタデータ) (2021-10-22T15:26:05Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。