論文の概要: Data-Efficient Reinforcement Learning with Self-Predictive
Representations
- arxiv url: http://arxiv.org/abs/2007.05929v4
- Date: Thu, 20 May 2021 09:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:21:47.924355
- Title: Data-Efficient Reinforcement Learning with Self-Predictive
Representations
- Title(参考訳): 自己予測表現を用いたデータ効率の良い強化学習
- Authors: Max Schwarzer, Ankesh Anand, Rishab Goel, R Devon Hjelm, Aaron
Courville, Philip Bachman
- Abstract要約: 我々はエージェントに、未来への複数のステップを予測させるように訓練する。
この将来の予測目標は, 試料効率の高い深部RLの先行手法よりも優れている。
今後の予測とデータ拡張を組み合わせた完全な自己監督目標が,アタリにおける人間正規化スコアの0.415を達成している。
- 参考スコア(独自算出の注目度): 21.223069189953037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reinforcement learning excels at solving tasks where large amounts
of data can be collected through virtually unlimited interaction with the
environment, learning from limited interaction remains a key challenge. We
posit that an agent can learn more efficiently if we augment reward
maximization with self-supervised objectives based on structure in its visual
input and sequential interaction with the environment. Our method,
Self-Predictive Representations(SPR), trains an agent to predict its own latent
state representations multiple steps into the future. We compute target
representations for future states using an encoder which is an exponential
moving average of the agent's parameters and we make predictions using a
learned transition model. On its own, this future prediction objective
outperforms prior methods for sample-efficient deep RL from pixels. We further
improve performance by adding data augmentation to the future prediction loss,
which forces the agent's representations to be consistent across multiple views
of an observation. Our full self-supervised objective, which combines future
prediction and data augmentation, achieves a median human-normalized score of
0.415 on Atari in a setting limited to 100k steps of environment interaction,
which represents a 55% relative improvement over the previous state-of-the-art.
Notably, even in this limited data regime, SPR exceeds expert human scores on 7
out of 26 games. The code associated with this work is available at
https://github.com/mila-iqia/spr
- Abstract(参考訳): 深い強化学習は、環境との無限の相互作用を通じて大量のデータを収集できるタスクを解くのに優れているが、限られた相互作用から学ぶことは依然として重要な課題である。
エージェントは,視覚入力の構造や環境との逐次相互作用に基づいて,自己教師付き目標による報酬の最大化を促進することで,より効率的に学習できると仮定する。
提案手法である自己予測表現(self-predictive representations:spr)は,エージェントに対して,複数のステップの潜在状態表現を予測するように訓練する。
エージェントのパラメータの指数的移動平均であるエンコーダを用いて将来の状態の目標表現を計算し,学習した遷移モデルを用いて予測を行う。
この将来の予測目標は, 試料効率の高い深部RLの先行手法よりも優れている。
将来の予測損失にデータ拡張を加え、エージェントの表現を観測の複数のビューで一貫性を持たせることにより、パフォーマンスをさらに向上させる。
今後の予測とデータ拡張を組み合わせた完全な自己監督対象は,環境相互作用の100k段階に制限されたアタリにおける人間正規化スコアの0.415を達成し,従来よりも55%向上した。
特に、この限られたデータ体制でさえ、SPRは26試合中7試合で熟練した人間のスコアを上回っている。
この作業に関連するコードはhttps://github.com/mila-iqia/sprで入手できる。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Interpretable Long Term Waypoint-Based Trajectory Prediction Model [1.4778851751964937]
軌道予測フレームワークの性能に長期的目標を加えることが及ぼす影響について検討する。
We present a interpretable long term waypoint-driven prediction framework (WayDCM)。
論文 参考訳(メタデータ) (2023-12-11T09:10:22Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - An Unbiased Look at Datasets for Visuo-Motor Pre-Training [20.094244564603184]
データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
論文 参考訳(メタデータ) (2023-10-13T17:59:02Z) - Human trajectory prediction using LSTM with Attention mechanism [0.0]
我々は注意スコアを用いて、モデルが予測を行う際にどの部分に注目すべきかを判断する。
提案アルゴリズムは,混み合った空間における歩行者の将来の軌跡を予測する上で,ソーシャルLSTMよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-01T08:35:24Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Deep Reinforcement and InfoMax Learning [32.426674181365456]
本稿では,Deep InfoMaxに基づく目標について紹介する。これはエージェントが連続した時間ステップの内部表現間の相互情報を最大化し,未来を予測することを訓練するものである。
提案手法をいくつかの合成条件で検証し,将来予測可能な表現の学習に成功した。
論文 参考訳(メタデータ) (2020-06-12T14:19:46Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。