Fugu-MT 論文翻訳(概要): Represented Value Function Approach for Large Scale Multi Agent Reinforcement Learning

論文の概要: Represented Value Function Approach for Large Scale Multi Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2001.01096v2
Date: Fri, 10 Jan 2020 01:57:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-14 12:38:26.347069
Title: Represented Value Function Approach for Large Scale Multi Agent Reinforcement Learning
Title（参考訳）: 大規模マルチエージェント強化学習のための表現値関数アプローチ
Authors: Weiya Ren
Abstract要約: 本稿では,エージェント間の相互作用の複雑さを低減するために,ペア値関数の表現問題について検討する。我々は、近似値関数の自明な項が有界であることを保証するために l2-norm トリックを採用する。
参考スコア（独自算出の注目度）: 0.30458514384586394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider the problem of large scale multi agent reinforcement learning. Firstly, we studied the representation problem of the pairwise value function to reduce the complexity of the interactions among agents. Secondly, we adopt a l2-norm trick to ensure the trivial term of the approximated value function is bounded. Thirdly, experimental results on battle game demonstrate the effectiveness of the proposed approach.
Abstract（参考訳）: 本稿では,大規模マルチエージェント強化学習の問題点について考察する。まず,エージェント間の相互作用の複雑さを低減するために,ペア値関数の表現問題を考察した。第二に、近似値関数の自明な項が有界であることを保証するために、l2-normのトリックを採用する。第3に, バトルゲーム実験の結果から, 提案手法の有効性が示された。

関連論文リスト

Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文参考訳（メタデータ） (2023-08-21T22:40:36Z)
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文参考訳（メタデータ） (2023-02-14T07:23:59Z)
SA-MATD3:Self-attention-based multi-agent continuous control method in cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文参考訳（メタデータ） (2021-07-01T08:15:05Z)
Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。値ベースの手法では、最適な値関数を正確に表現することが課題となる。政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文参考訳（メタデータ） (2021-05-31T23:08:05Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Learning to Represent Action Values as a Hypergraph on the Action Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。 Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2020-10-28T00:19:13Z)
Byzantine Resilient Distributed Multi-Task Learning [6.850757447639822]
タスク間の関連性を学習するための分散アルゴリズムは、ビザンティンエージェントの存在下では回復力がないことを示す。ビザンチンレジリエントな分散マルチタスク学習のためのアプローチを提案する。
論文参考訳（メタデータ） (2020-10-25T04:32:52Z)
Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文参考訳（メタデータ） (2020-10-24T21:35:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。