論文の概要: Effects of Spectral Normalization in Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.05331v1
- Date: Sat, 10 Dec 2022 16:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:27:57.421329
- Title: Effects of Spectral Normalization in Multi-agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるスペクトル正規化の効果
- Authors: Kinal Mehta, Anuj Mahajan, Pawan Kumar
- Abstract要約: スペクトル正規化(SN)による批判の正規化は,より堅牢な学習を可能にすることを示す。
我々の実験は、正規化された批評家が、まばらな報奨経験からすぐに学ぶことができることを示している。
- 参考スコア(独自算出の注目度): 7.064383217512461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reliable critic is central to on-policy actor-critic learning. But it
becomes challenging to learn a reliable critic in a multi-agent sparse reward
scenario due to two factors: 1) The joint action space grows exponentially with
the number of agents 2) This, combined with the reward sparseness and
environment noise, leads to large sample requirements for accurate learning. We
show that regularising the critic with spectral normalization (SN) enables it
to learn more robustly, even in multi-agent on-policy sparse reward scenarios.
Our experiments show that the regularised critic is quickly able to learn from
the sparse rewarding experience in the complex SMAC and RWARE domains. These
findings highlight the importance of regularisation in the critic for stable
learning.
- Abstract(参考訳): 信頼できる批評家は、オン・ポリティカルな俳優-批評学習の中心である。
しかし、2つの要因により,マルチエージェントのスパース報酬シナリオにおいて,信頼できる批評家を学ぶことは困難になる。
1) 協調作用空間はエージェントの数で指数関数的に増加する
2) 報酬のばらばらさと環境騒音が組み合わさって, 正確な学習に大量のサンプルが必要となる。
スペクトル正規化 (SN) による批判の正規化は, マルチエージェントによるスパース報酬シナリオにおいても, より堅牢な学習を可能にすることを示す。
実験の結果,レギュラー化された批評家は,複雑なsmacおよびrwareドメインにおけるスパースな報酬経験から素早く学習できることがわかった。
これらの知見は,安定学習批判における正規化の重要性を浮き彫りにした。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning [11.292086312664383]
提案アルゴリズムはSEAC (Shared Experience Actor-Critic) と呼ばれ,アクター・クリティカル・フレームワークに経験共有を適用した。
スパース・リワード型マルチエージェント環境におけるSEACの評価を行い、2つのベースラインと2つの最先端アルゴリズムを一貫して上回っていることを確認した。
論文 参考訳(メタデータ) (2020-06-12T13:24:50Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。