Fugu-MT 論文翻訳(概要): NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

論文の概要: NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.06977v1
Date: Sat, 07 Mar 2026 01:35:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.515994
Title: NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning
Title（参考訳）: NePPO: 汎用マルチエージェント強化学習のためのニアポジショニング最適化
Authors: Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari,
Abstract要約: 我々は,複合協調競合環境におけるNash平衡を近似的に計算するための,NePPO(Near-Potential Policy Optimization)と呼ばれる新しいMARLパイプラインを提案する。 MAPPO,IPPO,MADDPGなどの一般的なベースラインと比較して,このアプローチの優れた性能を示す。
参考スコア（独自算出の注目度）: 2.1419206807872797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning (MARL) is increasingly used to design learning-enabled agents that interact in shared environments. However, training MARL algorithms in general-sum games remains challenging: learning dynamics can become unstable, and convergence guarantees typically hold only in restricted settings such as two-player zero-sum or fully cooperative games. Moreover, when agents have heterogeneous and potentially conflicting preferences, it is unclear what system-level objective should guide learning. In this paper, we propose a new MARL pipeline called Near-Potential Policy Optimization (NePPO) for computing approximate Nash equilibria in mixed cooperative--competitive environments. The core idea is to learn a player-independent potential function such that the Nash equilibrium of a cooperative game with this potential as the common utility approximates a Nash equilibrium of the original game. To this end, we introduce a novel MARL objective such that minimizing this objective yields the best possible potential function candidate and consequently an approximate Nash equilibrium of the original game. We develop an algorithmic pipeline that minimizes this objective using zeroth-order gradient descent and returns an approximate Nash equilibrium policy. We empirically show the superior performance of this approach compared to popular baselines such as MAPPO, IPPO and MADDPG.
Abstract（参考訳）: マルチエージェント強化学習(MARL)は、共有環境で相互作用する学習可能なエージェントの設計にますます利用されている。しかし、一般的なサムゲームにおけるMARLアルゴリズムのトレーニングは依然として困難であり、学習力学は不安定になり、収束保証は通常、2つのプレイヤーゼロサムゲームや完全協調ゲームのような制限された設定でのみ保持される。さらに、エージェントが異質で、潜在的に矛盾する選好を持つ場合、どのようなシステムレベルの目的が学習を導くべきかは明らかでない。本稿では,複合協調競合環境におけるNash平衡を近似的に計算するための,NePPO(Near-Potential Policy Optimization)と呼ばれる新しいMARLパイプラインを提案する。中心となる考え方は、このポテンシャルを持つ協力ゲームのナッシュ均衡が元のゲームのナッシュ均衡に近似するような、プレイヤー非依存のポテンシャル関数を学習することである。この目的を達成するために,この目的を最小化することで,最も可能なポテンシャル関数候補が得られ,その結果,オリジナルゲームのナッシュ平衡が近似されるような,新しいMARL目標を導入する。我々は、この目的をゼロ階勾配降下を用いて最小化し、近似的なナッシュ均衡ポリシーを返すアルゴリズムパイプラインを開発する。 MAPPO,IPPO,MADDPGなどの一般的なベースラインと比較して,このアプローチの優れた性能を実証的に示す。

関連論文リスト

Multiplayer Nash Preference Optimization [79.15013211640566]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる標準パラダイムとして登場した。最近の研究は、2人プレイのナッシュゲームとしてアライメントを再構築し、ナッシュの学習を人間のフィードバック(NLHF)から引き起こした。マルチプレイヤーシステムにNLHFを一般化する新しいフレームワークであるMultiplayer Nash Preference Optimization (MNPO)を導入する。
論文参考訳（メタデータ） (2025-09-27T04:18:33Z)
Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games [40.05960121330012]
マルチエージェント強化学習(マルチエージェント強化学習、MARL)は、共有された未知の環境におけるエージェントのグループ間の相互作用を含む多くのアプリケーションの中心に位置する。モデルパラメータの実験的推定をバイアスすることで探索のインセンティブを与える,VMGと呼ばれる新しいモデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-13T21:28:51Z)
Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文参考訳（メタデータ） (2024-09-06T20:49:11Z)
Population-aware Online Mirror Descent for Mean-Field Games by Deep Reinforcement Learning [43.004209289015975]
平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-06T08:55:34Z)
Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文参考訳（メタデータ） (2022-08-03T16:41:01Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。