論文の概要: Masked Trajectory Models for Prediction, Representation, and Control
- arxiv url: http://arxiv.org/abs/2305.02968v1
- Date: Thu, 4 May 2023 16:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:47:17.407359
- Title: Masked Trajectory Models for Prediction, Representation, and Control
- Title(参考訳): 予測・表現・制御のためのマスキング軌道モデル
- Authors: Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch,
Pieter Abbeel, Aravind Rajeswaran
- Abstract要約: Masked Trajectory Models (MTM) はシーケンシャルな意思決定のための一般的な抽象化である。
MTMは、異なる役割や能力を担える多用途ネットワークを学ぶ。
MTMネットワークは、前述の能力のために訓練された特殊なネットワークにマッチまたは性能を向上することができる。
- 参考スコア(独自算出の注目度): 80.70110948655028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Masked Trajectory Models (MTM) as a generic abstraction for
sequential decision making. MTM takes a trajectory, such as a state-action
sequence, and aims to reconstruct the trajectory conditioned on random subsets
of the same trajectory. By training with a highly randomized masking pattern,
MTM learns versatile networks that can take on different roles or capabilities,
by simply choosing appropriate masks at inference time. For example, the same
MTM network can be used as a forward dynamics model, inverse dynamics model, or
even an offline RL agent. Through extensive experiments in several continuous
control tasks, we show that the same MTM network -- i.e. same weights -- can
match or outperform specialized networks trained for the aforementioned
capabilities. Additionally, we find that state representations learned by MTM
can significantly accelerate the learning speed of traditional RL algorithms.
Finally, in offline RL benchmarks, we find that MTM is competitive with
specialized offline RL algorithms, despite MTM being a generic self-supervised
learning method without any explicit RL components. Code is available at
https://github.com/facebookresearch/mtm
- Abstract(参考訳): シーケンシャルな意思決定のための汎用的な抽象化として,Masked Trajectory Models (MTM)を導入した。
MTMは状態-作用配列のような軌道をとり、同じ軌道のランダムな部分集合に条件付けられた軌道を再構成することを目的としている。
高度にランダム化されたマスキングパターンでトレーニングすることで、MTMは、推論時に適切なマスキングを選択するだけで、異なる役割や能力を担える汎用ネットワークを学習する。
例えば、同じMTMネットワークをフォワードダイナミクスモデル、逆ダイナミクスモデル、オフラインのRLエージェントとして使用することができる。
複数の連続制御タスクにおける広範囲な実験を通じて、同じmtmネットワーク(すなわち同じ重み)が、前述の能力のために訓練された専門ネットワークと一致し、より優れることを示した。
さらに,mtmが学習した状態表現は,従来のrlアルゴリズムの学習速度を著しく向上させる。
最後に、オフラインRLベンチマークにおいて、MTMは明示的なRL成分を持たない汎用的な自己教師付き学習法であるにもかかわらず、特殊なオフラインRLアルゴリズムと競合することがわかった。
コードはhttps://github.com/facebookresearch/mtmで入手できる。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning [28.63696288537304]
本稿では,RL(RePreM)における事前学習のためのマスク付きモデルを提案し,トランスフォーマブロックと組み合わさったエンコーダを訓練して,軌道中のマスク状態や動作を予測する。
RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールとよく一致しており、大きなRLモデルに対するその可能性を示している。
論文 参考訳(メタデータ) (2023-03-03T02:04:14Z) - Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer [5.92353064090273]
マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-18T09:47:34Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。