論文の概要: Equivariant MuZero
- arxiv url: http://arxiv.org/abs/2302.04798v1
- Date: Thu, 9 Feb 2023 17:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:58:07.869143
- Title: Equivariant MuZero
- Title(参考訳): 変種 MuZero
- Authors: Andreea Deac, Th\'eophane Weber, George Papamakarios
- Abstract要約: 本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。
我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
- 参考スコア(独自算出の注目度): 14.027651496499882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning repeatedly succeeds in closed, well-defined
domains such as games (Chess, Go, StarCraft). The next frontier is real-world
scenarios, where setups are numerous and varied. For this, agents need to learn
the underlying rules governing the environment, so as to robustly generalise to
conditions that differ from those they were trained on. Model-based
reinforcement learning algorithms, such as the highly successful MuZero, aim to
accomplish this by learning a world model. However, leveraging a world model
has not consistently shown greater generalisation capabilities compared to
model-free alternatives. In this work, we propose improving the data efficiency
and generalisation capabilities of MuZero by explicitly incorporating the
symmetries of the environment in its world-model architecture. We prove that,
so long as the neural networks used by MuZero are equivariant to a particular
symmetry group acting on the environment, the entirety of MuZero's
action-selection algorithm will also be equivariant to that group. We evaluate
Equivariant MuZero on procedurally-generated MiniPacman and on Chaser from the
ProcGen suite: training on a set of mazes, and then testing on unseen rotated
versions, demonstrating the benefits of equivariance. Further, we verify that
our performance improvements hold even when only some of the components of
Equivariant MuZero obey strict equivariance, which highlights the robustness of
our construction.
- Abstract(参考訳): 深い強化学習は、ゲーム(Chess、Go、StarCraft)のようなクローズドで明確に定義されたドメインで繰り返し成功します。
次のフロンティアは現実世界のシナリオで、セットアップは多様で多様です。
そのため、エージェントは、訓練されたものと異なる条件をしっかりと一般化するために、環境を管理する基本的なルールを学ぶ必要がある。
MuZeroのようなモデルに基づく強化学習アルゴリズムは、世界モデルを学ぶことでこれを達成しようとしている。
しかし、世界モデルを活用することは、モデルなしの代替品と比較して、常に大きな一般化能力を示すわけではない。
本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。
我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
手続き的に生成されたminipacman と procgen suite の chaser: training on a set of mazes, and test on unseen rotationd version について同変 muzero を評価し,同分散の利点を証明した。
さらに、Equivariant MuZero の成分のいくつかだけが厳密な等式に従わなくても、我々の性能改善が成り立つことを検証する。
関連論文リスト
- Bootstrap Segmentation Foundation Model under Distribution Shift via Object-Centric Learning [36.77777881242487]
本稿では,オブジェクト中心の表現を生成するために,エンコーダの機能を自己教師付きで再構築する手法であるSlotSAMを紹介する。
これらの表現はファンデーションモデルに統合され、オブジェクトレベルの知覚能力を強化します。
論文 参考訳(メタデータ) (2024-08-29T07:16:28Z) - UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
textitUniZeroは、トランスフォーマーベースの潜伏世界モデルを用いて、潜伏状態を暗黙の潜伏歴史からテクティディケンタングする新しいアプローチである。
我々は,UniZeroがシングルフレーム入力であっても,Atari 100kベンチマーク上での MuZero スタイルのアルゴリズムの性能と一致または上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-15T15:24:15Z) - MaGGIe: Masked Guided Gradual Human Instance Matting [71.22209465934651]
我々は新しいフレームワークMaGGIe, Masked Guided Gradual Human Instance Mattingを提案する。
計算コスト、精度、一貫性を維持しながら、人間のインスタンスごとのアルファ行列を段階的に予測する。
論文 参考訳(メタデータ) (2024-04-24T17:59:53Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Efficient Equivariant Transfer Learning from Pretrained Models [45.918447685383356]
ラムダ-equituneが重要な重み、ラムダを使って機能を平均化することを示す。
これらの重みは、小さなニューラルネットワークを使用してデータから直接学習される。
ラムダ-等式が同変であることを証明し、同変関数の普遍近似器とする。
論文 参考訳(メタデータ) (2023-05-17T02:20:34Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - Attribute-Modulated Generative Meta Learning for Zero-Shot
Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文 参考訳(メタデータ) (2021-04-22T04:16:43Z) - Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot
Learning [82.07273754143547]
トレーニング中に見られないカテゴリにモデルを一般化するためのメタ連続ゼロショット学習(MCZSL)アプローチを提案する。
属性の自己決定とスケールしたクラス正規化をメタラーニングベースのトレーニングと組み合わせることで、最先端の成果を上回ることができるのです。
論文 参考訳(メタデータ) (2021-02-23T18:36:14Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - Improving Model-Based Reinforcement Learning with Internal State
Representations through Self-Supervision [19.37841173522973]
環境のモデルを使用することで、強化学習エージェントは将来の動きを計画し、チェス、ショギ、ゴーといったボードゲームでパフォーマンスを達成することができる。
環境モデルも動的に学習でき、エージェントを多くのタスクに一般化し、同時に最先端のパフォーマンスを達成することができる。
我々の修正により、MuZeroの自己教師付き事前訓練も可能となり、目標が達成される前に、アルゴリズムは環境力学について学ぶことができる。
論文 参考訳(メタデータ) (2021-02-10T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。