論文の概要: Shielding in Resource-Constrained Goal POMDPs
- arxiv url: http://arxiv.org/abs/2211.15349v1
- Date: Mon, 28 Nov 2022 14:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:55:02.007694
- Title: Shielding in Resource-Constrained Goal POMDPs
- Title(参考訳): 資源制約ゴールPMDPの遮蔽
- Authors: Michal Ajdar\'ow, \v{S}imon Brlej, Petr Novotn\'y
- Abstract要約: 我々は,特定の資源の供給を必要とするエージェントをモデル化して,部分的に観測可能なマルコフ決定プロセス(POMDP)を検討する。
このエージェントは、リソースの枯渇を防止しながら目標を達成するための期待コストを最小化することを目的としており、これは、Emphresource-Constrained goal Optimization (RSGO) と呼ばれる問題である。
本稿では,本アルゴリズムの実装と,その文献からのベンチマークへの適用性を示す実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider partially observable Markov decision processes (POMDPs) modeling
an agent that needs a supply of a certain resource (e.g., electricity stored in
batteries) to operate correctly. The resource is consumed by agent's actions
and can be replenished only in certain states. The agent aims to minimize the
expected cost of reaching some goal while preventing resource exhaustion, a
problem we call \emph{resource-constrained goal optimization} (RSGO). We take a
two-step approach to the RSGO problem. First, using formal methods techniques,
we design an algorithm computing a \emph{shield} for a given scenario: a
procedure that observes the agent and prevents it from using actions that might
eventually lead to resource exhaustion. Second, we augment the POMCP heuristic
search algorithm for POMDP planning with our shields to obtain an algorithm
solving the RSGO problem. We implement our algorithm and present experiments
showing its applicability to benchmarks from the literature.
- Abstract(参考訳): 我々は,特定の資源(例えば,電池に蓄えられた電力)の供給を必要とするエージェントを正しく動作させるためにモデル化する部分可観測マルコフ決定プロセス(pomdps)を検討する。
資源はエージェントの行動によって消費され、特定の州でのみ補充される。
エージェントは、リソースの枯渇を防止しながら、ある目標を達成するための期待されるコストを最小限にすることを目的としています。
RSGO問題に対して2段階のアプローチをとる。
まず,形式的手法を用いて,与えられたシナリオに対して \emph{shield} を演算するアルゴリズムを設計する。
第2に, RSGO問題を解くアルゴリズムを得るために, シールドを用いたPOMDP計画のためのPOMCPヒューリスティック探索アルゴリズムを拡張した。
本アルゴリズムを実装し,そのベンチマークへの適用性を示す実験を行った。
関連論文リスト
- Efficient Constraint Generation for Stochastic Shortest Path Problems [0.0]
最短経路問題(SSP)に対する制約生成の効率的なバージョンを提案する。
この手法により、アルゴリズムは準最適動作を無視し、コスト・ツー・ゴーの計算を回避できる。
実験の結果, CG-iLAO* は iLAO* の作用の最大57% を無視し, LRTDP や iLAO* よりも最大8倍, 3倍高速に問題を解くことがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:00:07Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Stochastic Direct Search Method for Blind Resource Allocation [6.574808513848414]
線形制約付きおよび微分自由最適化のための直接探索法(パターン探索とも呼ばれる)について検討する。
直接探索法は決定論的かつ制約のない場合において有限の後悔を達成できることを示す。
そこで本研究では,T2/3$のオーダを後悔させるようなダイレクトサーチの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2022-10-11T07:40:45Z) - Computation Offloading and Resource Allocation in F-RANs: A Federated
Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文 参考訳(メタデータ) (2022-06-13T02:19:20Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Resource-Aware Distributed Submodular Maximization: A Paradigm for
Multi-Robot Decision-Making [3.5788754401889022]
Resource-Aware Distributed Greedyは、各ロボットのオンボードリソースを独立して考慮した最初のアルゴリズムである。
RAGは、中央集権化のトレードオフを、グローバルな準最適性、分散化、ほぼ最小のオンボード計算、通信、メモリリソースのトレードオフとバランス付けます。
論文 参考訳(メタデータ) (2022-04-15T15:47:05Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。