Fugu-MT 論文翻訳(概要): Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts

論文の概要: Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts

arxiv url: http://arxiv.org/abs/2105.03363v1
Date: Fri, 7 May 2021 16:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 14:16:23.264019
Title: Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts
Title（参考訳）: 適応型対数ロールアウトを用いたモデルベースマルチエージェントポリシー最適化
Authors: Weinan Zhang, Xihuai Wang, Jian Shen, Ming Zhou
Abstract要約: マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。 AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
参考スコア（独自算出の注目度）: 52.844741540236285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the model-based methods in multi-agent reinforcement learning (MARL). We specify the dynamics sample complexity and the opponent sample complexity in MARL, and conduct a theoretic analysis of return discrepancy upper bound. To reduce the upper bound with the intention of low sample complexity during the whole learning process, we propose a novel decentralized model-based MARL method, named Adaptive Opponent-wise Rollout Policy Optimization (AORPO). In AORPO, each agent builds its multi-agent environment model, consisting of a dynamics model and multiple opponent models, and trains its policy with the adaptive opponent-wise rollout. We further prove the theoretic convergence of AORPO under reasonable assumptions. Empirical experiments on competitive and cooperative tasks demonstrate that AORPO can achieve improved sample efficiency with comparable asymptotic performance over the compared MARL methods.
Abstract（参考訳）: 本稿では,マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。我々は, MARLにおける動的サンプル複雑性と反対サンプル複雑性を規定し, 回帰差分上限の理論的解析を行う。そこで本研究では,学習過程全体におけるサンプル複雑性の低減を目的として,適応的対向的ロールアウト政策最適化(aorpo)と呼ばれる分散モデルに基づくmarl法を提案する。 AORPOでは、各エージェントは動的モデルと複数の対戦モデルからなるマルチエージェント環境モデルを構築し、適応的対向的ロールアウトでポリシーを訓練する。さらに、AORPOの理論的収束を合理的な仮定で証明する。競合的および協調的なタスクに関する実証実験により、AORPOは比較したMARL法よりも漸近的な性能でサンプル効率を向上できることを示した。

関連論文リスト

Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms [2.3244035825657963]
本稿では、PAIR(Preference-Aligned individual Reciprocity)を紹介する。 PAIRは人間に似た配偶者選択をエミュレートし、進化的アルゴリズム(EA)におけるペアリングプロセスにインテリジェンスを導入する
論文参考訳（メタデータ） (2025-03-05T07:45:56Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models [17.19004913553654]
多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示した。高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。提案アルゴリズムは,様々な最先端MOBOアルゴリズムと比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-05-14T14:55:57Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
Learning Multiple Coordinated Agents under Directed Acyclic Graph Constraints [20.45657219304883]
本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習する新しいマルチエージェント強化学習(MARL)法を提案する。既存のMARL手法とは異なり,本手法ではエージェント間のDAG構造を明示的に利用し,より効果的な学習性能を実現する。
論文参考訳（メタデータ） (2023-07-13T13:41:24Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。