論文の概要: Masked Autoencoding for Scalable and Generalizable Decision Making
- arxiv url: http://arxiv.org/abs/2211.12740v2
- Date: Sat, 27 May 2023 09:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:55:17.412706
- Title: Masked Autoencoding for Scalable and Generalizable Decision Making
- Title(参考訳): スケーラブルで汎用的な意思決定のためのマスク付き自動エンコーディング
- Authors: Fangchen Liu, Hao Liu, Aditya Grover, Pieter Abbeel
- Abstract要約: MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
- 参考スコア(独自算出の注目度): 93.84855114717062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in learning scalable agents for reinforcement learning that
can learn from large-scale, diverse sequential data similar to current large
vision and language models. To this end, this paper presents masked decision
prediction (MaskDP), a simple and scalable self-supervised pretraining method
for reinforcement learning (RL) and behavioral cloning (BC). In our MaskDP
approach, we employ a masked autoencoder (MAE) to state-action trajectories,
wherein we randomly mask state and action tokens and reconstruct the missing
data. By doing so, the model is required to infer masked-out states and actions
and extract information about dynamics. We find that masking different
proportions of the input sequence significantly helps with learning a better
model that generalizes well to multiple downstream tasks. In our empirical
study, we find that a MaskDP model gains the capability of zero-shot transfer
to new BC tasks, such as single and multiple goal reaching, and it can
zero-shot infer skills from a few example transitions. In addition, MaskDP
transfers well to offline RL and shows promising scaling behavior w.r.t. to
model size. It is amenable to data-efficient finetuning, achieving competitive
results with prior methods based on autoregressive pretraining.
- Abstract(参考訳): 現在の大規模ビジョンや言語モデルに似た大規模で多様なシーケンシャルなデータから学ぶことができる、強化学習のためのスケーラブルなエージェントの学習に興味があります。
そこで本稿では,強化学習(RL)と行動クローニング(BC)のための簡易かつスケーラブルな自己教師付き事前学習手法であるマスク決定予測(MaskDP)を提案する。
MaskDPアプローチでは,マスク付きオートエンコーダ(MAE)を用いて状態-動作軌跡を解析し,状態と動作トークンをランダムにマスキングし,欠落したデータを再構成する。
そうすることで、モデルはマスクアウト状態とアクションを推測し、ダイナミクスに関する情報を抽出する必要がある。
入力シーケンスの異なる割合をマスキングすることは、複数の下流タスクをうまく一般化するより良いモデルを学ぶのに大いに役立ちます。
実証実験では、MaskDPモデルが、単一および複数ゴール到達のような新しいBCタスクへのゼロショット転送能力を獲得し、いくつかの例からゼロショット推論のスキルを得ることができた。
さらに、MaskDPはオフラインのRLによく移行し、モデルサイズに有望なスケーリング動作を示す。
データ効率の良い微調整には適しており、自己回帰的事前訓練に基づく先行手法による競合結果が得られる。
関連論文リスト
- Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning [28.63696288537304]
本稿では,RL(RePreM)における事前学習のためのマスク付きモデルを提案し,トランスフォーマブロックと組み合わさったエンコーダを訓練して,軌道中のマスク状態や動作を予測する。
RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールとよく一致しており、大きなRLモデルに対するその可能性を示している。
論文 参考訳(メタデータ) (2023-03-03T02:04:14Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。