論文の概要: Represented Value Function Approach for Large Scale Multi Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.01096v2
- Date: Fri, 10 Jan 2020 01:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 12:38:26.347069
- Title: Represented Value Function Approach for Large Scale Multi Agent
Reinforcement Learning
- Title(参考訳): 大規模マルチエージェント強化学習のための表現値関数アプローチ
- Authors: Weiya Ren
- Abstract要約: 本稿では,エージェント間の相互作用の複雑さを低減するために,ペア値関数の表現問題について検討する。
我々は、近似値関数の自明な項が有界であることを保証するために l2-norm トリックを採用する。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of large scale multi agent
reinforcement learning. Firstly, we studied the representation problem of the
pairwise value function to reduce the complexity of the interactions among
agents. Secondly, we adopt a l2-norm trick to ensure the trivial term of the
approximated value function is bounded. Thirdly, experimental results on battle
game demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,大規模マルチエージェント強化学習の問題点について考察する。
まず,エージェント間の相互作用の複雑さを低減するために,ペア値関数の表現問題を考察した。
第二に、近似値関数の自明な項が有界であることを保証するために、l2-normのトリックを採用する。
第3に, バトルゲーム実験の結果から, 提案手法の有効性が示された。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z) - Byzantine Resilient Distributed Multi-Task Learning [6.850757447639822]
タスク間の関連性を学習するための分散アルゴリズムは、ビザンティンエージェントの存在下では回復力がないことを示す。
ビザンチンレジリエントな分散マルチタスク学習のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-25T04:32:52Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。