論文の概要: Prototypical context-aware dynamics generalization for high-dimensional
model-based reinforcement learning
- arxiv url: http://arxiv.org/abs/2211.12774v1
- Date: Wed, 23 Nov 2022 08:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:40:50.487828
- Title: Prototypical context-aware dynamics generalization for high-dimensional
model-based reinforcement learning
- Title(参考訳): 高次元モデルに基づく強化学習のための原型的文脈認識ダイナミクス一般化
- Authors: Junjie Wang, Yao Mu, Dong Li, Qichao Zhang, Dongbin Zhao, Yuzheng
Zhuang, Ping Luo, Bin Wang, Jianye Hao
- Abstract要約: 本稿では,時間一貫した潜在コンテキストによって局所的ダイナミクスをキャプチャするプロトタイプ型コンテキスト認識ダイナミクス(ProtoCAD)モデルを提案する。
ProtoCADは、すべての動的一般化タスクに対して平均と中央値のパフォーマンスが13.2%と26.7%向上している。
- 参考スコア(独自算出の注目度): 40.88574224514982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The latent world model provides a promising way to learn policies in a
compact latent space for tasks with high-dimensional observations, however, its
generalization across diverse environments with unseen dynamics remains
challenging. Although the recurrent structure utilized in current advances
helps to capture local dynamics, modeling only state transitions without an
explicit understanding of environmental context limits the generalization
ability of the dynamics model. To address this issue, we propose a Prototypical
Context-Aware Dynamics (ProtoCAD) model, which captures the local dynamics by
time consistent latent context and enables dynamics generalization in
high-dimensional control tasks. ProtoCAD extracts useful contextual information
with the help of the prototypes clustered over batch and benefits model-based
RL in two folds: 1) It utilizes a temporally consistent prototypical
regularizer that encourages the prototype assignments produced for different
time parts of the same latent trajectory to be temporally consistent instead of
comparing the features; 2) A context representation is designed which combines
both the projection embedding of latent states and aggregated prototypes and
can significantly improve the dynamics generalization ability. Extensive
experiments show that ProtoCAD surpasses existing methods in terms of dynamics
generalization. Compared with the recurrent-based model RSSM, ProtoCAD delivers
13.2% and 26.7% better mean and median performance across all dynamics
generalization tasks.
- Abstract(参考訳): 潜在世界モデルは、高次元の観察を伴うタスクのためにコンパクトな潜在空間でポリシーを学ぶ有望な方法を提供するが、未知のダイナミクスを持つ多様な環境にまたがる一般化は依然として困難である。
現在の進歩で利用される再帰構造は局所力学を捉えるのに役立つが、環境コンテキストを明示的に理解せずに状態遷移のみをモデル化することは、力学モデルの一般化能力を制限している。
この問題に対処するために,我々は,時間的一貫性のある潜在コンテキストによって局所的なダイナミクスを捉え,高次元制御タスクにおけるダイナミクスの一般化を可能にするprotocadモデルを提案する。
protocadは、バッチ上にクラスタ化されたプロトタイプの助けを借りて、有用なコンテキスト情報を抽出する。
1) 時間的に整合性のある原型正規化器を利用することにより,同一の潜航路の異なる時間部分に発生する原型割り当てを,特徴を比較せずに時間的に整合性にする。
2) 潜在状態の投影埋め込みと集約プロトタイプの両方を組み合わせたコンテキスト表現が設計され, ダイナミックス一般化能力が大幅に向上する。
拡張実験により,ProtoCADは動的一般化の点で既存の手法を超越していることがわかった。
反復型モデルRSSMと比較すると、ProtoCADはすべての動的一般化タスクにおいて平均と中央値のパフォーマンスが13.2%と26.7%向上している。
関連論文リスト
- Persistent Topological Features in Large Language Models [0.6597195879147556]
トポロジ的特徴の持続性と変換を定量化する新しい指標である永続化類似性を導入する。
従来の類似度測定とは異なり、我々の手法はこれらの特徴の進化軌道全体を捉えている。
実用的なアプリケーションとして、永続化の類似性を活用して冗長なレイヤを特定し、実行します。
論文 参考訳(メタデータ) (2024-10-14T19:46:23Z) - Generalization of Auto-Regressive Hidden Markov Models to Non-Linear
Dynamics and Unit Quaternion Observation Space [2.055949720959582]
自己回帰型隠れマルコフモデルの2つの一般化を提案する。
この拡張はARHMMのために提案されているが、観測空間内のARダイナミクスを持つ他の潜在変数モデルに容易に拡張できる。
論文 参考訳(メタデータ) (2023-02-23T07:46:24Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。
R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。
R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-01-13T03:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。