論文の概要: Efficient Strategy Synthesis for MDPs with Resource Constraints
- arxiv url: http://arxiv.org/abs/2105.02099v1
- Date: Wed, 5 May 2021 14:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 15:28:55.106180
- Title: Efficient Strategy Synthesis for MDPs with Resource Constraints
- Title(参考訳): 資源制約を考慮したMDPの効率的な戦略合成
- Authors: Franti\v{s}ek Blahoudek, Petr Novotn\'y, Melkior Ornik, Pranay
Thangeda and Ufuk Topcu
- Abstract要約: 我々は,消費マルコフ決定過程と呼ばれる形式に対する戦略合成を考える。
提示されたアルゴリズムは、モデルの表現に関して時間的に機能する。
- 参考スコア(独自算出の注目度): 16.774128823546416
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider qualitative strategy synthesis for the formalism called
consumption Markov decision processes. This formalism can model dynamics of an
agents that operates under resource constraints in a stochastic environment.
The presented algorithms work in time polynomial with respect to the
representation of the model and they synthesize strategies ensuring that a
given set of goal states will be reached (once or infinitely many times) with
probability 1 without resource exhaustion. In particular, when the amount of
resource becomes too low to safely continue in the mission, the strategy
changes course of the agent towards one of a designated set of reload states
where the agent replenishes the resource to full capacity; with sufficient
amount of resource, the agent attempts to fulfill the mission again.
We also present two heuristics that attempt to reduce expected time that the
agent needs to fulfill the given mission, a parameter important in practical
planning. The presented algorithms were implemented and numerical examples
demonstrate (i) the effectiveness (in terms of computation time) of the
planning approach based on consumption Markov decision processes and (ii) the
positive impact of the two heuristics on planning in a realistic example.
- Abstract(参考訳): 消費マルコフ決定過程と呼ばれる形式主義の質的戦略合成を考える。
この形式主義は、確率環境において資源制約の下で作用するエージェントのダイナミクスをモデル化することができる。
提示されたアルゴリズムは、モデルの表現に関して時間多項式で動作し、与えられた目標状態のセットがリソースの枯渇なしに確率1で(あるいは無限回)到達されることを保証する戦略を合成する。
特に、ミッションを安全に継続するには資源の量が少なくなった場合、その戦略は、エージェントがリソースをフルキャパシティに補充する指定されたリロード状態の1つに向かってエージェントのコースを変更し、十分な量のリソースで、エージェントが再びミッションを遂行しようとする。
また,エージェントが与えられたミッションを遂行する必要があるという期待時間を削減するための2つのヒューリスティックな手法を提案する。
提案アルゴリズムを実装し, (i) 計算時間の観点から) マルコフ決定プロセスに基づく計画手法の有効性, (ii) 実例による計画に対する2つのヒューリスティックスの肯定的な影響を示す数値例を示した。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - A State-Augmented Approach for Learning Optimal Resource Management
Decisions in Wireless Networks [58.720142291102135]
マルチユーザ無線ネットワークにおける無線リソース管理(RRM)問題について考察する。
目標は、ユーザのエルゴード平均パフォーマンスに制約を受けるネットワーク全体のユーティリティ機能を最適化することである。
本稿では, RRM の制約に対応する2変数の集合を入力として, 瞬時ネットワーク状態と並行して, RRM のパラメータ化を提案する。
論文 参考訳(メタデータ) (2022-10-28T21:24:13Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Polynomial-Time Algorithms for Multi-Agent Minimal-Capacity Planning [19.614913673879474]
共有タスクを達成するために協力する自律エージェントのリソース容量を最小化する問題を研究する。
消費マルコフ決定過程において、エージェントは限られた容量の資源を有する。
我々は,このグラフ問題をエージェント数,ターゲット位置,消費マルコフ決定過程の大きさで時間的に解くアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-04T00:30:02Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Near-Optimal Reactive Synthesis Incorporating Runtime Information [28.25296947005914]
我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。
実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-07-31T14:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。