論文の概要: Conformal Off-Policy Prediction for Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2403.16871v2
- Date: Sun, 15 Sep 2024 17:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:45:24.148961
- Title: Conformal Off-Policy Prediction for Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムのコンフォーマルオフポリティ予測
- Authors: Tom Kuipers, Renukanandan Tumu, Shuo Yang, Milad Kazemi, Rahul Mangharam, Nicola Paoletti,
- Abstract要約: オフポリシィ予測(OPP)は、安全クリティカルシステムのデータ駆動分析における最重要課題である。
マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを紹介する。
MA-COPPの重要な貢献は、エージェント軌道の出力空間の列挙や徹底的な探索を避けることである。
- 参考スコア(独自算出の注目度): 6.32674891108819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-Policy Prediction (OPP), i.e., predicting the outcomes of a target policy using only data collected under a nominal (behavioural) policy, is a paramount problem in data-driven analysis of safety-critical systems where the deployment of a new policy may be unsafe. To achieve dependable off-policy predictions, recent work on Conformal Off-Policy Prediction (COPP) leverage the conformal prediction framework to derive prediction regions with probabilistic guarantees under the target process. Existing COPP methods can account for the distribution shifts induced by policy switching, but are limited to single-agent systems and scalar outcomes (e.g., rewards). In this work, we introduce MA-COPP, the first conformal prediction method to solve OPP problems involving multi-agent systems, deriving joint prediction regions for all agents' trajectories when one or more ego agents change their policies. Unlike the single-agent scenario, this setting introduces higher complexity as the distribution shifts affect predictions for all agents, not just the ego agents, and the prediction task involves full multi-dimensional trajectories, not just reward values. A key contribution of MA-COPP is to avoid enumeration or exhaustive search of the output space of agent trajectories, which is instead required by existing COPP methods to construct the prediction region. We achieve this by showing that an over-approximation of the true joint prediction region (JPR) can be constructed, without enumeration, from the maximum density ratio of the JPR trajectories. We evaluate the effectiveness of MA-COPP in multi-agent systems from the PettingZoo library and the F1TENTH autonomous racing environment, achieving nominal coverage in higher dimensions and various shift settings.
- Abstract(参考訳): オフポリシー予測(Off-Policy Prediction、OPP)、すなわち、名目上の(行動的)ポリシーの下で収集されたデータのみを用いてターゲットポリシーの結果を予測することは、新しいポリシーの展開が安全でない可能性がある安全クリティカルシステムのデータ駆動分析における最重要問題である。
コンフォーマル・オフ・ポリティ・予測(COPP)に関する最近の研究は、コンフォーマル・オフ・ポリティ・予測(COPP)の枠組みを利用して、目標プロセス下で確率的保証のある予測領域を導出する。
既存のCOPP法は、ポリシースイッチングによって引き起こされる分散シフトを考慮できるが、単一のエージェントシステムとスカラー結果(例えば報酬)に限られる。
本研究では,マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを紹介し,複数のエージェントがポリシーを変更した場合に,すべてのエージェントの軌道に対する共同予測領域を導出する。
単一エージェントのシナリオとは異なり、この設定では、分散シフトがエゴエージェントだけでなく、すべてのエージェントの予測に影響を及ぼし、予測タスクは報酬値だけでなく、完全な多次元軌跡を含むため、複雑さが増す。
MA-COPPの重要な貢献は、既存のCOPP法が予測領域を構築するために必要とするエージェント軌道の出力空間の列挙や徹底的な探索を避けることである。
本研究では,JPRトラジェクトリの最大密度比から,実関節予測領域(JPR)の過剰近似を列挙することなく構築可能であることを示す。
我々は,PetttingZooライブラリとF1TENTH自律走行環境のマルチエージェントシステムにおけるMA-COPPの有効性を評価し,高次元および各種シフト設定における名目的カバレッジを実現する。
関連論文リスト
- MAP-Former: Multi-Agent-Pair Gaussian Joint Prediction [6.110153599741102]
交通行動予測モジュールから得られる軌道情報と実際に必要とされるものとの間には,軌道のリスク評価のギャップがある。
既存の予測モデルでは、単一エージェントに対する不確実な重み付きエージェントの将来の軌道の合同予測やガウス確率密度関数(PDF)が得られている。
本稿では, エージェント対共分散行列をシーン中心の方法で予測することに着目し, 動き予測への新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-30T06:21:42Z) - Whom to Trust? Elective Learning for Distributed Gaussian Process
Regression [3.5208783730894972]
我々は、選択学習アルゴリズム、すなわち、事前認識された選択分散GP(Pri-GP)を開発する。
Pri-GPは、その信頼性に基づいて、近隣のエージェントから予測を選択的に要求する能力を持つエージェントに権限を与える。
プリGPフレームワーク内に予測誤差を確立し,予測の信頼性を確保する。
論文 参考訳(メタデータ) (2024-02-05T13:52:56Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under Probabilistic Agent Dropout [4.949881799107061]
本研究では,マルチエージェント・マルコフ決定プロセス(MDP)について検討し,エージェント・ドロップアウトとポスト・ドロップアウトシステムに対するポリシーの計算を行う。
まず,1つのMDPで,期待されるポストドロップアウトシステムの価値を表現できることを示す。
さらに,モデルのない状況下では,ロバストなMDP値を,プリドロップアウトシステムによって生成されたサンプルで推定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-24T21:29:41Z) - Conformal Prediction Intervals for Markov Decision Process Trajectories [10.68332392039368]
本稿では、マルコフ決定プロセス(MDP)上で固定制御ポリシーを実行する自律システムの将来の挙動に関する共形予測区間を提供する。
この方法は、侵略的な種管理とStarCraft2の戦いのためのMDPに説明されている。
論文 参考訳(メタデータ) (2022-06-10T03:43:53Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。