論文の概要: Proximal Learning With Opponent-Learning Awareness
- arxiv url: http://arxiv.org/abs/2210.10125v1
- Date: Tue, 18 Oct 2022 19:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:44:53.957368
- Title: Proximal Learning With Opponent-Learning Awareness
- Title(参考訳): 対向学習による親密な学習
- Authors: Stephen Zhao, Chris Lu, Roger Baker Grosse, Jakob Nicolaus Foerster
- Abstract要約: Learning With Opponent-Learning Awareness (LOLA)はマルチエージェント強化学習アルゴリズムである。
我々は, 近似式を直接用いた新しいアルゴリズム, 近似 LOLA (POLA) を導出する。
このことは、POLAがLOLAよりも確実に相互性に基づく協力を実現することを実証的に示している。
- 参考スコア(独自算出の注目度): 2.9885907027988012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning With Opponent-Learning Awareness (LOLA) (Foerster et al. [2018a]) is
a multi-agent reinforcement learning algorithm that typically learns
reciprocity-based cooperation in partially competitive environments. However,
LOLA often fails to learn such behaviour on more complex policy spaces
parameterized by neural networks, partly because the update rule is sensitive
to the policy parameterization. This problem is especially pronounced in the
opponent modeling setting, where the opponent's policy is unknown and must be
inferred from observations; in such settings, LOLA is ill-specified because
behaviorally equivalent opponent policies can result in non-equivalent updates.
To address this shortcoming, we reinterpret LOLA as approximating a proximal
operator, and then derive a new algorithm, proximal LOLA (POLA), which uses the
proximal formulation directly. Unlike LOLA, the POLA updates are
parameterization invariant, in the sense that when the proximal objective has a
unique optimum, behaviorally equivalent policies result in behaviorally
equivalent updates. We then present practical approximations to the ideal POLA
update, which we evaluate in several partially competitive environments with
function approximation and opponent modeling. This empirically demonstrates
that POLA achieves reciprocity-based cooperation more reliably than LOLA.
- Abstract(参考訳): Learning With Opponent-Learning Awareness (LOLA) (Foerster et al. [2018a]) は、通常、部分的に競合する環境で相互性に基づく協調学習を行うマルチエージェント強化学習アルゴリズムである。
しかし、LOLAは、更新ルールがポリシーパラメータ化に敏感であることもあって、ニューラルネットワークによってパラメータ化されるより複雑なポリシー空間でそのような振る舞いを学ばないことが多い。
この問題は、相手の方針が不明で観測結果から推測されなければならない相手のモデリング環境では特に顕著であり、振る舞いに等価な相手ポリシーが等価でない更新をもたらすため、LOLAは不特定である。
この欠点に対処するため、我々はLOLAを近似演算子として再解釈し、その近似定式化を直接使用する新しいアルゴリズムであるPOLAを導出する。
LOLAとは異なり、POLA更新はパラメータ化不変であり、近位目的が一意の最適性を持つ場合、行動等価なポリシーは行動等価な更新をもたらす。
次に,いくつかの部分競合環境において関数近似と対向モデルを用いて評価する理想pola更新の実用的近似を提案する。
このことは、POLAがLOLAよりも確実に相互性に基づく協力を実現することを実証的に示している。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - COLA: Consistent Learning with Opponent-Learning Awareness [10.460704685958449]
整合性を定式化し、高次LOLAが収束すれば、LOLAの不整合問題を解くことを示す。
また、一貫性のある更新関数でさえSFPを保存しないことを証明し、この欠点はLOLAの不整合に起因するという仮説に矛盾する。
論文 参考訳(メタデータ) (2022-03-08T14:08:36Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。