Fugu-MT 論文翻訳(概要): Offline Decentralized Multi-Agent Reinforcement Learning

論文の概要: Offline Decentralized Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2108.01832v1
Date: Wed, 4 Aug 2021 03:53:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-05 21:52:29.384275
Title: Offline Decentralized Multi-Agent Reinforcement Learning
Title（参考訳）: オフライン分散マルチエージェント強化学習
Authors: Jiechuan Jiang and Zongqing Lu
Abstract要約: MABCQは値の偏差と遷移正規化を利用して遷移確率を変化させる。修正後の非定常遷移確率下でのQ-ラーニングの収束を実証する。
参考スコア（独自算出の注目度）: 28.65638561683171
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many real-world multi-agent cooperative tasks, due to high cost and risk, agents cannot interact with the environment and collect experiences during learning, but have to learn from offline datasets. However, the transition probabilities calculated from the dataset can be much different from the transition probabilities induced by the learned policies of other agents, creating large errors in value estimates. Moreover, the experience distributions of agents' datasets may vary wildly due to diverse behavior policies, causing large difference in value estimates between agents. Consequently, agents will learn uncoordinated suboptimal policies. In this paper, we propose MABCQ, which exploits value deviation and transition normalization to modify the transition probabilities. Value deviation optimistically increases the transition probabilities of high-value next states, and transition normalization normalizes the biased transition probabilities of next states. They together encourage agents to discover potential optimal and coordinated policies. Mathematically, we prove the convergence of Q-learning under the non-stationary transition probabilities after modification. Empirically, we show that MABCQ greatly outperforms baselines and reduces the difference in value estimates between agents.
Abstract（参考訳）: 多くの実世界のマルチエージェント協調タスクでは、高いコストとリスクのため、エージェントは環境と対話できず、学習中に経験を収集するが、オフラインデータセットから学ぶ必要がある。しかし、データセットから計算された遷移確率は他のエージェントの学習ポリシーによって引き起こされる遷移確率とは大きく異なり、値推定に大きな誤差が生じる。さらに、エージェントのデータセットの経験分布は多様な行動ポリシーによって大きく変化し、エージェント間の価値推定に大きな違いをもたらす可能性がある。その結果、エージェントは非協調的な準最適ポリシーを学ぶことになる。本稿では,遷移確率を変化させるために値偏差と遷移正規化を利用するmabcqを提案する。値偏差は高値次状態の遷移確率を楽観的に増加させ、遷移正規化は次の状態のバイアス付き遷移確率を正規化する。共にエージェントに、潜在的に最適かつ協調したポリシーを発見するよう促す。数学的には、修正後の非定常遷移確率の下でのq-learningの収束を証明する。 MABCQは, エージェント間の値推定値の差を小さくし, ベースラインを大幅に上回ることを示す。

関連論文リスト

Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Enabling Multi-Agent Transfer Reinforcement Learning via Scenario Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文参考訳（メタデータ） (2024-02-13T02:48:18Z)
Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文参考訳（メタデータ） (2023-09-26T07:38:19Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-01T12:21:30Z)
Best Possible Q-Learning [33.4713690991284]
分散学習は協調型マルチエージェント強化学習における課題である。ほとんどの分散アルゴリズムの収束性と最適性は理論上保証されていない。様々な協調型マルチエージェントタスクにおいて,Q-ラーニングがベースラインよりも顕著に改善できることが示唆された。
論文参考訳（メタデータ） (2023-02-02T16:14:19Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。 RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文参考訳（メタデータ） (2022-05-30T16:56:06Z)
Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。 OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2021-11-22T13:27:42Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。