論文の概要: Offline Decentralized Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.01832v1
- Date: Wed, 4 Aug 2021 03:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 21:52:29.384275
- Title: Offline Decentralized Multi-Agent Reinforcement Learning
- Title(参考訳): オフライン分散マルチエージェント強化学習
- Authors: Jiechuan Jiang and Zongqing Lu
- Abstract要約: MABCQは値の偏差と遷移正規化を利用して遷移確率を変化させる。
修正後の非定常遷移確率下でのQ-ラーニングの収束を実証する。
- 参考スコア(独自算出の注目度): 28.65638561683171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world multi-agent cooperative tasks, due to high cost and risk,
agents cannot interact with the environment and collect experiences during
learning, but have to learn from offline datasets. However, the transition
probabilities calculated from the dataset can be much different from the
transition probabilities induced by the learned policies of other agents,
creating large errors in value estimates. Moreover, the experience
distributions of agents' datasets may vary wildly due to diverse behavior
policies, causing large difference in value estimates between agents.
Consequently, agents will learn uncoordinated suboptimal policies. In this
paper, we propose MABCQ, which exploits value deviation and transition
normalization to modify the transition probabilities. Value deviation
optimistically increases the transition probabilities of high-value next
states, and transition normalization normalizes the biased transition
probabilities of next states. They together encourage agents to discover
potential optimal and coordinated policies. Mathematically, we prove the
convergence of Q-learning under the non-stationary transition probabilities
after modification. Empirically, we show that MABCQ greatly outperforms
baselines and reduces the difference in value estimates between agents.
- Abstract(参考訳): 多くの実世界のマルチエージェント協調タスクでは、高いコストとリスクのため、エージェントは環境と対話できず、学習中に経験を収集するが、オフラインデータセットから学ぶ必要がある。
しかし、データセットから計算された遷移確率は他のエージェントの学習ポリシーによって引き起こされる遷移確率とは大きく異なり、値推定に大きな誤差が生じる。
さらに、エージェントのデータセットの経験分布は多様な行動ポリシーによって大きく変化し、エージェント間の価値推定に大きな違いをもたらす可能性がある。
その結果、エージェントは非協調的な準最適ポリシーを学ぶことになる。
本稿では,遷移確率を変化させるために値偏差と遷移正規化を利用するmabcqを提案する。
値偏差は高値次状態の遷移確率を楽観的に増加させ、遷移正規化は次の状態のバイアス付き遷移確率を正規化する。
共にエージェントに、潜在的に最適かつ協調したポリシーを発見するよう促す。
数学的には、修正後の非定常遷移確率の下でのq-learningの収束を証明する。
MABCQは, エージェント間の値推定値の差を小さくし, ベースラインを大幅に上回ることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Best Possible Q-Learning [33.4713690991284]
分散学習は協調型マルチエージェント強化学習における課題である。
ほとんどの分散アルゴリズムの収束性と最適性は理論上保証されていない。
様々な協調型マルチエージェントタスクにおいて,Q-ラーニングがベースラインよりも顕著に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-02-02T16:14:19Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。