論文の概要: Toward Finding Strong Pareto Optimal Policies in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.19372v1
- Date: Fri, 25 Oct 2024 08:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:10.485003
- Title: Toward Finding Strong Pareto Optimal Policies in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における強パレート最適政策の発見に向けて
- Authors: Bang Giang Le, Viet Cuong Ta,
- Abstract要約: 各エージェントが報酬のみを最適化するアルゴリズムは、任意のアルゴリズムが最適下収束の対象であることを示す。
この観察は多目的最適化フレームワークと多エージェント強化学習を同時に橋渡しする。
提案手法は,収束ポリシーの最適性の観点から,効率よく収束し,他の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License:
- Abstract: In this work, we study the problem of finding Pareto optimal policies in multi-agent reinforcement learning problems with cooperative reward structures. We show that any algorithm where each agent only optimizes their reward is subject to suboptimal convergence. Therefore, to achieve Pareto optimality, agents have to act altruistically by considering the rewards of others. This observation bridges the multi-objective optimization framework and multi-agent reinforcement learning together. We first propose a framework for applying the Multiple Gradient Descent algorithm (MGDA) for learning in multi-agent settings. We further show that standard MGDA is subjected to weak Pareto convergence, a problem that is often overlooked in other learning settings but is prevalent in multi-agent reinforcement learning. To mitigate this issue, we propose MGDA++, an improvement of the existing algorithm to handle the weakly optimal convergence of MGDA properly. Theoretically, we prove that MGDA++ converges to strong Pareto optimal solutions in convex, smooth bi-objective problems. We further demonstrate the superiority of our MGDA++ in cooperative settings in the Gridworld benchmark. The results highlight that our proposed method can converge efficiently and outperform the other methods in terms of the optimality of the convergent policies. The source code is available at \url{https://github.com/giangbang/Strong-Pareto-MARL}.
- Abstract(参考訳): 本研究では,協調的な報酬構造を持つ多エージェント強化学習問題において,パレートの最適ポリシを見つけることの課題について検討する。
各エージェントが報酬のみを最適化するアルゴリズムは、任意のアルゴリズムが最適下収束の対象であることを示す。
したがって、パレートの最適性を達成するためには、エージェントは他人の報酬を考慮して利他的に行動しなければならない。
この観察は多目的最適化フレームワークと多エージェント強化学習を同時に橋渡しする。
まず,マルチエージェント環境下での学習にMGDA(Multiple Gradient Descent Algorithm)を適用するフレームワークを提案する。
さらに、標準MGDAは、他の学習環境では見過ごされることが多いが、マルチエージェント強化学習において、弱いPareto収束の対象であることが示される。
この問題を軽減するために,MGDA++を提案する。MGDAの弱い最適収束を適切に処理するための既存アルゴリズムの改良である。
理論的には、MGDA++は凸な滑らかな双対象問題において強パレート最適解に収束することが証明される。
Gridworldベンチマークにおける協調的な設定におけるMGDA++の優位性をさらに示す。
その結果,提案手法は,収束ポリシーの最適性の観点から,効率よく収束し,他の手法よりも優れていることがわかった。
ソースコードは \url{https://github.com/giangbang/Strong-Pareto-MARL} で公開されている。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Optimal and Bounded-Suboptimal Multi-Goal Task Assignment and Path
Finding [25.11387753357413]
本稿では,多目的タスク割り当てと経路探索(MG-TAPF)問題を理論的およびアルゴリズム的観点から検討する。
理論的には、MG-TAPF問題は最適解法としてNPハードであることが証明される。
本稿では,多エージェントパス探索問題に対するアルゴリズムに基づくアルゴリズムを提案し,MG-TAPF問題を最適・準最適に解く。
論文 参考訳(メタデータ) (2022-08-02T03:17:29Z) - On a class of geodesically convex optimization problems solved via
Euclidean MM methods [50.428784381385164]
ユークリッド凸化関数の違いは、統計学と機械学習の異なるタイプの問題の違いとして記述できることを示す。
最終的に、より広い範囲、より広い範囲の作業を支援するのです。
論文 参考訳(メタデータ) (2022-06-22T23:57:40Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - POMO: Policy Optimization with Multiple Optima for Reinforcement
Learning [8.819672165548477]
本稿では,マルチプルオプティマス(POMO)を用いたポリシー最適化について紹介する。
POMOは、幅広いCO問題に適用可能であり、CO溶液の表現における対称性を利用するように設計されている。
我々は,旅行セールスマン(TSP),キャパシタンドカールーティング(CVRP),0-1knapsack(KP)の3つの一般的なNPハード問題を解くことで,POMOの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-30T00:57:50Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - A Multi-Agent Primal-Dual Strategy for Composite Optimization over
Distributed Features [52.856801164425086]
目的関数を滑らかな局所関数と凸(おそらく非滑らか)結合関数の和とするマルチエージェント共有最適化問題について検討する。
論文 参考訳(メタデータ) (2020-06-15T19:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。