論文の概要: Decentralized Planning Using Probabilistic Hyperproperties
- arxiv url: http://arxiv.org/abs/2502.13621v1
- Date: Wed, 19 Feb 2025 10:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:15.517851
- Title: Decentralized Planning Using Probabilistic Hyperproperties
- Title(参考訳): 確率的ハイパープロパタイトを用いた分散計画
- Authors: Francesco Pontiggia, Filip Macák, Roman Andriushchenko, Michele Chiari, Milan Češka,
- Abstract要約: 一つのエージェントが環境の中でどのように機能するかを記述したMDPと、望ましい時間的目的を捉えるための確率的超越性を用いて記述する。
このことは、確率論的超正当性検証の分野において、既存の分散化された計画ツールの使用の基礎を成している。
- 参考スコア(独自算出の注目度): 0.16777183511743468
- License:
- Abstract: Multi-agent planning under stochastic dynamics is usually formalised using decentralized (partially observable) Markov decision processes ( MDPs) and reachability or expected reward specifications. In this paper, we propose a different approach: we use an MDP describing how a single agent operates in an environment and probabilistic hyperproperties to capture desired temporal objectives for a set of decentralized agents operating in the environment. We extend existing approaches for model checking probabilistic hyperproperties to handle temporal formulae relating paths of different agents, thus requiring the self-composition between multiple MDPs. Using several case studies, we demonstrate that our approach provides a flexible and expressive framework to broaden the specification capabilities with respect to existing planning techniques. Additionally, we establish a close connection between a subclass of probabilistic hyperproperties and planning for a particular type of Dec-MDPs, for both of which we show undecidability. This lays the ground for the use of existing decentralized planning tools in the field of probabilistic hyperproperty verification.
- Abstract(参考訳): 確率力学に基づくマルチエージェント計画は通常、分散化された(部分的に観測可能な)マルコフ決定プロセス(MDP)と到達可能性または期待される報酬仕様を用いて定式化される。
本稿では, 一つのエージェントが環境内でどのように動作するかを記述するMDPと, 環境内で動作している分散エージェントの集合に対して, 望ましい時間的目的を捉えるための確率的ハイパープロパティを用いて, 異なるアプローチを提案する。
我々は,複数のエージェントの時間的公式に関連する経路を扱うために,モデル検査のための既存手法を拡張し,複数のMDP間の自己構成を必要とする。
いくつかのケーススタディを用いて、既存の計画手法に関して仕様機能を拡張するフレキシブルで表現力のあるフレームワークが提案されていることを実証した。
さらに,確率的ハイパープロパティのサブクラスと特定のタイプのDec-MDPの計画との間に密接な関係を築き,どちらも決定不可能性を示す。
このことは、確率論的超正当性検証の分野において、既存の分散化された計画ツールの使用の基礎を成している。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies [6.015898117103069]
局所的相互依存型マルチエージェントMDPと呼ばれる動的に異なる依存関係を持つ分散モデルの解析を行う。
一般に部分的に観察可能なマルチエージェントシステムの難しさにもかかわらず、3つのクローズドフォームポリシーを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:11:00Z) - Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。