論文の概要: Approximate Control for Continuous-Time POMDPs
- arxiv url: http://arxiv.org/abs/2402.01431v1
- Date: Fri, 2 Feb 2024 14:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:03:12.151788
- Title: Approximate Control for Continuous-Time POMDPs
- Title(参考訳): 連続時間PMDPの近似制御
- Authors: Yannick Eich, Bastian Alt, Heinz Koeppl
- Abstract要約: 本研究では、離散状態とアクション空間を持つ連続的に部分的に観測可能なシステムの意思決定フレームワークを提案する。
フィルタと制御問題に対して近似法を用い, 増大する状態によく対応している。
本稿では,キューシステムや化学反応ネットワークなど,いくつかの部分的に観測されたシステムに対して,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 35.26411026381803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a decision-making framework for partially observable
systems in continuous time with discrete state and action spaces. As optimal
decision-making becomes intractable for large state spaces we employ
approximation methods for the filtering and the control problem that scale well
with an increasing number of states. Specifically, we approximate the
high-dimensional filtering distribution by projecting it onto a parametric
family of distributions, and integrate it into a control heuristic based on the
fully observable system to obtain a scalable policy. We demonstrate the
effectiveness of our approach on several partially observed systems, including
queueing systems and chemical reaction networks.
- Abstract(参考訳): 本研究では、離散状態とアクション空間を持つ連続的に部分的に観測可能なシステムの意思決定フレームワークを提案する。
大きな状態空間では最適な意思決定が難解になるにつれて、フィルタリングの近似法と、状態数の増加とともにスケールする制御問題を採用する。
具体的には, 分布のパラメトリックファミリーに投影して高次元フィルタリング分布を近似し, 完全に観測可能なシステムに基づく制御ヒューリスティックに統合し, スケーラブルなポリシを得る。
本稿では,キューシステムや化学反応ネットワークなど,いくつかの部分的に観測されたシステムに対するアプローチの有効性を示す。
関連論文リスト
- Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies [6.015898117103069]
局所的相互依存型マルチエージェントMDPと呼ばれる動的に異なる依存関係を持つ分散モデルの解析を行う。
一般に部分的に観察可能なマルチエージェントシステムの難しさにもかかわらず、3つのクローズドフォームポリシーを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:11:00Z) - Many-body entropies and entanglement from polynomially-many local measurements [0.26388783516590225]
すべての空間相関長が有限であるという仮定のもとに効率的な推定戦略が存在することを示す。
我々は,今日の量子プラットフォームで利用可能な多数の量子ビットに対して,二分位混合状態の絡み合いを検出するのに,本手法は実用的に有用であると主張している。
論文 参考訳(メタデータ) (2023-11-14T12:13:15Z) - Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes [5.471640959988549]
まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。
累積報酬を最大化するポリシを合成するための構造化手法を提供する。
次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
論文 参考訳(メタデータ) (2023-05-24T05:15:36Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Finite-Time Analysis of Natural Actor-Critic for POMDPs [29.978816372127085]
部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
論文 参考訳(メタデータ) (2022-02-20T07:42:00Z) - Numerical estimation of reachable and controllability sets for a
two-level open quantum system driven by coherent and incoherent controls [77.34726150561087]
この記事では、ゴリーニ-コサコフスキー--リンドブラッド--スダルシャンマスター方程式によって支配される2段階の開量子系を考える。
系の密度行列のブロッホパラメトリゼーションを用いて解析する。
論文 参考訳(メタデータ) (2021-06-18T14:23:29Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。