論文の概要: Visualizing MuZero Models
- arxiv url: http://arxiv.org/abs/2102.12924v1
- Date: Thu, 25 Feb 2021 15:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:05:38.802224
- Title: Visualizing MuZero Models
- Title(参考訳): MuZeroモデルの可視化
- Authors: Joery A. de Vries, Ken S. Voskuil, Thomas M. Moerland and Aske Plaat
- Abstract要約: モデルベースの強化学習アルゴリズムであるMuZeroは、チェス、ショギ、Goのゲームで最先端のパフォーマンスを達成した。
我々は MuZero エージェントの潜伏表現を可視化する。
MuZeroの性能を安定させるための2つの正規化手法を提案する。
- 参考スコア(独自算出の注目度): 0.23624125155742054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MuZero, a model-based reinforcement learning algorithm that uses a value
equivalent dynamics model, achieved state-of-the-art performance in Chess,
Shogi and the game of Go. In contrast to standard forward dynamics models that
predict a full next state, value equivalent models are trained to predict a
future value, thereby emphasizing value relevant information in the
representations. While value equivalent models have shown strong empirical
success, there is no research yet that visualizes and investigates what types
of representations these models actually learn. Therefore, in this paper we
visualize the latent representation of MuZero agents. We find that action
trajectories may diverge between observation embeddings and internal state
transition dynamics, which could lead to instability during planning. Based on
this insight, we propose two regularization techniques to stabilize MuZero's
performance. Additionally, we provide an open-source implementation of MuZero
along with an interactive visualizer of learned representations, which may aid
further investigation of value equivalent algorithms.
- Abstract(参考訳): MuZeroはモデルに基づく強化学習アルゴリズムで、値等価なダイナミックスモデルを使用し、チェス、ショギ、Goのゲームで最先端のパフォーマンスを達成した。
完全な次の状態を予測する標準フォワードダイナミクスモデルとは対照的に、値等価モデルは将来の値を予測するように訓練され、表現における価値関連情報を強調する。
価値等価モデルは、強い経験的成功を示しているが、これらのモデルが実際に学習する表現の種類を視覚化し、調査する研究はまだない。
そこで本論文では,MuZeroエージェントの潜在表現を可視化する。
動作軌跡は観測埋没と内部状態遷移ダイナミクスの間で分岐し, 計画中の不安定性を引き起こす可能性がある。
この知見に基づいて,MuZeroの性能を安定させる2つの正規化手法を提案する。
さらに、MuZeroのオープンソース実装と学習された表現のインタラクティブなビジュアライゼーションを提供し、価値同等のアルゴリズムのさらなる調査を支援することができます。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Improving Model-Based Reinforcement Learning with Internal State
Representations through Self-Supervision [19.37841173522973]
環境のモデルを使用することで、強化学習エージェントは将来の動きを計画し、チェス、ショギ、ゴーといったボードゲームでパフォーマンスを達成することができる。
環境モデルも動的に学習でき、エージェントを多くのタスクに一般化し、同時に最先端のパフォーマンスを達成することができる。
我々の修正により、MuZeroの自己教師付き事前訓練も可能となり、目標が達成される前に、アルゴリズムは環境力学について学ぶことができる。
論文 参考訳(メタデータ) (2021-02-10T17:55:04Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。