論文の概要: Offline Decentralized Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.01832v2
- Date: Sat, 29 Jul 2023 05:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 01:24:34.249079
- Title: Offline Decentralized Multi-Agent Reinforcement Learning
- Title(参考訳): オフライン分散マルチエージェント強化学習
- Authors: Jiechuan Jiang and Zongqing Lu
- Abstract要約: オフライン分散マルチエージェント強化学習のためのフレームワークを提案する。
我々は値の偏差と遷移正規化を利用して遷移確率を変化させる。
このフレームワークは、既存のオフライン強化学習アルゴリズムで簡単に構築できることを示す。
- 参考スコア(独自算出の注目度): 33.4713690991284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world multi-agent cooperative tasks, due to high cost and risk,
agents cannot continuously interact with the environment and collect
experiences during learning, but have to learn from offline datasets. However,
the transition dynamics in the dataset of each agent can be much different from
the ones induced by the learned policies of other agents in execution, creating
large errors in value estimates. Consequently, agents learn uncoordinated
low-performing policies. In this paper, we propose a framework for offline
decentralized multi-agent reinforcement learning, which exploits value
deviation and transition normalization to deliberately modify the transition
probabilities. Value deviation optimistically increases the transition
probabilities of high-value next states, and transition normalization
normalizes the transition probabilities of next states. They together enable
agents to learn high-performing and coordinated policies. Theoretically, we
prove the convergence of Q-learning under the altered non-stationary transition
dynamics. Empirically, we show that the framework can be easily built on many
existing offline reinforcement learning algorithms and achieve substantial
improvement in a variety of multi-agent tasks.
- Abstract(参考訳): 多くの実世界のマルチエージェント協調作業では、コストとリスクが高いため、エージェントは環境と継続的に対話し、学習中に経験を収集することはできないが、オフラインデータセットから学ぶ必要がある。
しかし、各エージェントのデータセットにおける遷移ダイナミクスは、実行時に他のエージェントの学習ポリシーによって引き起こされるものとは大きく異なり、値推定において大きなエラーが発生する。
その結果、エージェントは非協調的な低パフォーマンスポリシーを学ぶ。
本稿では,非分散型マルチエージェント強化学習のためのフレームワークを提案する。これは,値偏差と遷移正規化を利用して,遷移確率を意図的に修正する。
値偏差は高値次状態の遷移確率を楽観的に増加させ、遷移正規化は次の状態の遷移確率を正規化する。
エージェントは共に、ハイパフォーマンスでコーディネートされたポリシーを学ぶことができる。
理論的には、変化した非定常遷移ダイナミクスの下でのq-learningの収束を証明する。
経験的に、このフレームワークは既存のオフライン強化学習アルゴリズムで簡単に構築でき、様々なマルチエージェントタスクで大幅に改善できることを示した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Best Possible Q-Learning [33.4713690991284]
分散学習は協調型マルチエージェント強化学習における課題である。
ほとんどの分散アルゴリズムの収束性と最適性は理論上保証されていない。
様々な協調型マルチエージェントタスクにおいて,Q-ラーニングがベースラインよりも顕著に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-02-02T16:14:19Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。