論文の概要: Policy Space Diversity for Non-Transitive Games
- arxiv url: http://arxiv.org/abs/2306.16884v2
- Date: Wed, 8 Nov 2023 10:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:40:21.062602
- Title: Policy Space Diversity for Non-Transitive Games
- Title(参考訳): 非推移ゲームのためのポリシー空間の多様性
- Authors: Jian Yao, Weiming Liu, Haobo Fu, Yaodong Yang, Stephen McAleer, Qiang
Fu, Wei Yang
- Abstract要約: Policy-Space Response Oracles (PSRO) はゲームにおいて Nash Equilibrium (NE) を近似するための強力なアルゴリズムフレームワークである。
そこで本研究では,NEの精度向上を図った新しい多様性指標を提案する。
多様性の正規化をPSROの最適応答解に組み込むことで、PSROの新たなバリエーションであるポリシー空間多様性PSRO(PSD-PSRO)を得る。
- 参考スコア(独自算出の注目度): 20.71611331838075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-Space Response Oracles (PSRO) is an influential algorithm framework
for approximating a Nash Equilibrium (NE) in multi-agent non-transitive games.
Many previous studies have been trying to promote policy diversity in PSRO. A
major weakness in existing diversity metrics is that a more diverse (according
to their diversity metrics) population does not necessarily mean (as we proved
in the paper) a better approximation to a NE. To alleviate this problem, we
propose a new diversity metric, the improvement of which guarantees a better
approximation to a NE. Meanwhile, we develop a practical and well-justified
method to optimize our diversity metric using only state-action samples. By
incorporating our diversity regularization into the best response solving in
PSRO, we obtain a new PSRO variant, Policy Space Diversity PSRO (PSD-PSRO). We
present the convergence property of PSD-PSRO. Empirically, extensive
experiments on various games demonstrate that PSD-PSRO is more effective in
producing significantly less exploitable policies than state-of-the-art PSRO
variants.
- Abstract(参考訳): Policy-Space Response Oracles (PSRO) はマルチエージェント非推移ゲームにおいて Nash Equilibrium (NE) を近似するための強力なアルゴリズムフレームワークである。
これまで多くの研究がpsroの政策多様性を推進してきた。
既存の多様性指標の大きな弱点は、より多様性のある(多様性指標による)人口が必ずしも(私たちが論文で証明したように)NEに対するより良い近似を意味するとは限らないことである。
この問題を緩和するため,我々は,neへの近似性が向上する新しい多様性指標を提案する。
一方, 状態-作用サンプルのみを用いて, 多様性指標を最適化するための実用的, 適正な手法を開発した。
多様性の正則化をPSROの最適応答解に組み込むことで、PSROの新たな変種であるポリシー空間多様性PSRO(PSD-PSRO)を得る。
PSD-PSROの収束特性について述べる。
実証的な実験により、psd-psroは最先端のpsroよりも悪用可能なポリシーを多く作り出すのに効果的であることが示されている。
関連論文リスト
- Phasic Diversity Optimization for Population-Based Reinforcement Learning [10.15130620537703]
Phasic Diversity Optimization (PDO)アルゴリズムは報酬と多様性のトレーニングを異なるフェーズに分けている。
補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。
本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。
論文 参考訳(メタデータ) (2024-03-17T06:41:09Z) - Measuring Policy Distance for Multi-Agent Reinforcement Learning [9.80588687020087]
マルチエージェント強化学習(MARL)における政策差を測定するための多エージェント政策距離(MAPD)を提案する。
エージェントの判断の条件表現を学習することで、PDはエージェント間のポリシー距離を計算することができる。
また、MAPDをカスタマイズ可能なバージョンに拡張し、特定の側面におけるエージェントポリシーの違いを定量化します。
論文 参考訳(メタデータ) (2024-01-20T15:34:51Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games [44.30509625560908]
オープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
行動多様性(BD)と反応多様性(RD)の両方に基づくマルチエージェントオープンエンド学習における多様性の統一尺度を提案する。
現在,多くの多様性対策が,BDやRDのカテゴリの1つに該当するが,両方ではないことを示す。
この統一された多様性尺度を用いて、オープンエンド学習における最良の応答を求める際に、対応する多様性促進目標と人口効果度を設計する。
論文 参考訳(メタデータ) (2021-06-09T10:11:06Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。