論文の概要: Scaling Opponent Shaping to High Dimensional Games
- arxiv url: http://arxiv.org/abs/2312.12568v3
- Date: Sat, 10 Feb 2024 21:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:05:27.233005
- Title: Scaling Opponent Shaping to High Dimensional Games
- Title(参考訳): 高次元ゲームへの対物形状のスケーリング
- Authors: Akbir Khan and Timon Willi and Newton Kwan and Andrea Tacchetti and
Chris Lu and Edward Grefenstette and Tim Rockt\"aschel and Jakob Foerster
- Abstract要約: 時間的に拡張されたアクションと長時間の水平線を持つ汎用ゲームに対するOSベースのアプローチを開発する。
文献からの難易度の設定において,Shaperは個人的,集団的成果の向上につながることを示す。
- 参考スコア(独自算出の注目度): 17.27358464280679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-agent settings with mixed incentives, methods developed for zero-sum
games have been shown to lead to detrimental outcomes. To address this issue,
opponent shaping (OS) methods explicitly learn to influence the learning
dynamics of co-players and empirically lead to improved individual and
collective outcomes. However, OS methods have only been evaluated in
low-dimensional environments due to the challenges associated with estimating
higher-order derivatives or scaling model-free meta-learning. Alternative
methods that scale to more complex settings either converge to undesirable
solutions or rely on unrealistic assumptions about the environment or
co-players. In this paper, we successfully scale an OS-based approach to
general-sum games with temporally-extended actions and long-time horizons for
the first time. After analysing the representations of the meta-state and
history used by previous algorithms, we propose a simplified version called
Shaper. We show empirically that Shaper leads to improved individual and
collective outcomes in a range of challenging settings from literature. We
further formalize a technique previously implicit in the literature, and
analyse its contribution to opponent shaping. We show empirically that this
technique is helpful for the functioning of prior methods in certain
environments. Lastly, we show that previous environments, such as the CoinGame,
are inadequate for analysing temporally-extended general-sum interactions.
- Abstract(参考訳): 混合インセンティブを持つマルチエージェント設定では、ゼロサムゲーム用に開発された手法が有害な結果をもたらすことが示されている。
この問題に対処するため、相手のシェーピング(os)メソッドは、コプレイヤの学習ダイナミクスに影響を与えるように明示的に学習し、経験的に個人と集団の成果を改善する。
しかし,高次導関数の推定やモデルフリーなメタラーニングのスケーリングといった課題があるため,低次元環境においてのみos手法が評価されている。
より複雑な設定にスケールする別の方法は、望ましくないソリューションに収束するか、環境や共同プレイヤに関する非現実的な仮定に依存する。
本稿では,時間的拡張動作と長時間の地平線を持つ汎用ゲームへのOSベースのアプローチを初めて実現した。
従来のアルゴリズムが用いたメタ状態と履歴の表現を分析した後、Shaperと呼ばれる簡易バージョンを提案する。
文献からの挑戦的な状況において、Shaperが個人的および集団的成果を改善することを実証的に示す。
さらに文献に暗黙的な手法を定式化し,その相手の形状に対する寄与を分析した。
本手法は,特定の環境下での先行手法の機能向上に有効であることを示す。
最後に、CoinGameのような従来の環境は、時間的に拡張された一般サム相互作用を分析するのに不十分であることを示す。
関連論文リスト
- Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:38:57Z) - Difficulty Modelling in Mobile Puzzle Games: An Empirical Study on
Different Methods to Combine Player Analytics and Simulated Data [0.0]
一般的なプラクティスは、プレイヤーとコンテンツとのインタラクションによって収集されたデータからメトリクスを作成することです。
これにより、コンテンツがリリースされた後にのみ見積が可能であり、将来のプレイヤーの特徴を考慮しない。
本稿では,そのような条件下での難易度推定の潜在的な解を多数提示する。
論文 参考訳(メタデータ) (2024-01-30T20:51:42Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - United We Stand: Using Epoch-wise Agreement of Ensembles to Combat
Overfit [7.627299398469962]
オーバーフィッティングを効果的に克服するディープネットワークのための新しいアンサンブル分類器を提案する。
本手法は, 汎用性能の劣化を伴わずに, オーバーフィッティング段階で得られた有用な知識を組み込むことが可能である。
私たちの方法は実装が容易で、どんなトレーニングスキームやアーキテクチャにも統合できます。
論文 参考訳(メタデータ) (2023-10-17T08:51:44Z) - Class-Incremental Mixture of Gaussians for Deep Continual Learning [15.49323098362628]
本稿では,ガウスモデルの混合を連続学習フレームワークに組み込むことを提案する。
固定抽出器を用いたメモリフリーシナリオにおいて,本モデルが効果的に学習可能であることを示す。
論文 参考訳(メタデータ) (2023-07-09T04:33:19Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Model-Free Opponent Shaping [1.433758865948252]
汎用ゲームのためのM-FOS(Model-Free Opponent Shaping)を提案する。
M-FOSはメタゲームで学習し、各メタステップは根底にある「インナー」ゲームのエピソードである。
文学的な学習者や、より洗練されたアルゴリズムを駆使している。
論文 参考訳(メタデータ) (2022-05-03T12:20:14Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。