論文の概要: RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.01668v1
- Date: Fri, 3 Mar 2023 02:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:28:43.651383
- Title: RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning
- Title(参考訳): RePreM:強化学習のためのマスクモデルによる表現事前学習
- Authors: Yuanying Cai, Chuheng Zhang, Wei Shen, Xuyun Zhang, Wenjie Ruan,
Longbo Huang
- Abstract要約: 本稿では,RL(RePreM)における事前学習のためのマスク付きモデルを提案し,トランスフォーマブロックと組み合わさったエンコーダを訓練して,軌道中のマスク状態や動作を予測する。
RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールとよく一致しており、大きなRLモデルに対するその可能性を示している。
- 参考スコア(独自算出の注目度): 28.63696288537304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the recent success of sequence modeling in RL and the use of
masked language model for pre-training, we propose a masked model for
pre-training in RL, RePreM (Representation Pre-training with Masked Model),
which trains the encoder combined with transformer blocks to predict the masked
states or actions in a trajectory. RePreM is simple but effective compared to
existing representation pre-training methods in RL. It avoids algorithmic
sophistication (such as data augmentation or estimating multiple models) with
sequence modeling and generates a representation that captures long-term
dynamics well. Empirically, we demonstrate the effectiveness of RePreM in
various tasks, including dynamic prediction, transfer learning, and
sample-efficient RL with both value-based and actor-critic methods. Moreover,
we show that RePreM scales well with dataset size, dataset quality, and the
scale of the encoder, which indicates its potential towards big RL models.
- Abstract(参考訳): rlにおける最近のシーケンスモデリングの成功と、事前学習のためのマスク言語モデルの使用に触発されて、rlにおける事前学習のためのマスクモデルであるreprem (representation pre-training with masked model)を提案し、エンコーダをトランスフォーマブロックと組み合わせてトレーニングし、軌道上のマスク状態や動作を予測する。
RePreMはRLの既存の表現事前学習法と比較してシンプルだが有効である。
シーケンスモデリングによるアルゴリズムの高度化(データ拡張や複数のモデルの推定など)を回避し、長期のダイナミクスをうまく捉えた表現を生成する。
本研究では,動的予測や伝達学習,サンプル効率のよいRLなど,様々なタスクにおけるRePreMの有効性を示す。
さらに、RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールによく対応しており、大きなRLモデルに対するその可能性を示している。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。
実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。
これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-19T09:12:29Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。