論文の概要: AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation
- arxiv url: http://arxiv.org/abs/2311.02194v1
- Date: Fri, 3 Nov 2023 18:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:56:54.011021
- Title: AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation
- Title(参考訳): alberdice: 交互定常分布補正推定によるオフラインマルチエージェントrlにおける分散ジョイントアクションの解決
- Authors: Daiki E. Matsunaga, Jongmin Lee, Jaeseok Yoon, Stefanos Leonardos,
Pieter Abbeel, Kee-Eung Kim
- Abstract要約: オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
- 参考スコア(独自算出の注目度): 65.4532392602682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main challenges in offline Reinforcement Learning (RL) is the
distribution shift that arises from the learned policy deviating from the data
collection policy. This is often addressed by avoiding out-of-distribution
(OOD) actions during policy improvement as their presence can lead to
substantial performance degradation. This challenge is amplified in the offline
Multi-Agent RL (MARL) setting since the joint action space grows exponentially
with the number of agents. To avoid this curse of dimensionality, existing MARL
methods adopt either value decomposition methods or fully decentralized
training of individual agents. However, even when combined with standard
conservatism principles, these methods can still result in the selection of OOD
joint actions in offline MARL. To this end, we introduce AlberDICE, an offline
MARL algorithm that alternatively performs centralized training of individual
agents based on stationary distribution optimization. AlberDICE circumvents the
exponential complexity of MARL by computing the best response of one agent at a
time while effectively avoiding OOD joint action selection. Theoretically, we
show that the alternating optimization procedure converges to Nash policies. In
the experiments, we demonstrate that AlberDICE significantly outperforms
baseline algorithms on a standard suite of MARL benchmarks.
- Abstract(参考訳): オフライン強化学習(rl)における大きな課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、ポリシー改善中の分散(ood)アクションを避けることで対処され、その存在が実質的なパフォーマンス低下につながる可能性がある。
この課題は、結合アクション空間がエージェント数で指数関数的に増加するため、オフラインマルチエージェントrl(marl)設定において増幅される。
このような次元性の呪いを避けるため、既存のMARL法では、値分解法または個別エージェントの完全分散トレーニングを採用する。
しかし、標準的な保守主義の原則と組み合わせても、これらの手法はオフラインMARLにおけるOOD共同動作の選択につながる。
そこで本研究では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムであるAlberDICEを紹介する。
AlberDICEは、1つのエージェントの最良の応答を計算し、OOD関節動作の選択を効果的に回避することで、MARLの指数関数的複雑性を回避する。
理論的には、交互最適化手順がnashポリシーに収束することを示す。
実験では、alberdiceがmarlベンチマークの標準スイートでベースラインアルゴリズムを大きく上回っていることを実証する。
関連論文リスト
- ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。
本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:17:17Z) - Decentralized Smoothing ADMM for Quantile Regression with Non-Convex Sparse Penalties [3.269165283595478]
急速に進化するIoT(Internet-of-Things)エコシステムでは、センサによって生成された分散データを扱う上で、効果的なデータ分析技術が不可欠である。
下位段階のコンセンサスアプローチのような既存の手法の限界に対処することは、アクティブ係数と非アクティブ係数の区別に失敗する。
論文 参考訳(メタデータ) (2024-08-02T15:00:04Z) - Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Divergence-Regularized Multi-Agent Actor-Critic [17.995905582226467]
我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-10-01T10:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。