論文の概要: Deep Reinforcement and InfoMax Learning
- arxiv url: http://arxiv.org/abs/2006.07217v3
- Date: Mon, 16 Nov 2020 18:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:48:25.786677
- Title: Deep Reinforcement and InfoMax Learning
- Title(参考訳): 深層強化とインフォマックス学習
- Authors: Bogdan Mazoure, Remi Tachet des Combes, Thang Doan, Philip Bachman, R
Devon Hjelm
- Abstract要約: 本稿では,Deep InfoMaxに基づく目標について紹介する。これはエージェントが連続した時間ステップの内部表現間の相互情報を最大化し,未来を予測することを訓練するものである。
提案手法をいくつかの合成条件で検証し,将来予測可能な表現の学習に成功した。
- 参考スコア(独自算出の注目度): 32.426674181365456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We begin with the hypothesis that a model-free agent whose representations
are predictive of properties of future states (beyond expected rewards) will be
more capable of solving and adapting to new RL problems. To test that
hypothesis, we introduce an objective based on Deep InfoMax (DIM) which trains
the agent to predict the future by maximizing the mutual information between
its internal representation of successive timesteps. We test our approach in
several synthetic settings, where it successfully learns representations that
are predictive of the future. Finally, we augment C51, a strong RL baseline,
with our temporal DIM objective and demonstrate improved performance on a
continual learning task and on the recently introduced Procgen environment.
- Abstract(参考訳): 我々は、表現が将来の状態(期待される報酬に加えて)の性質を予測できるモデルフリーエージェントは、新しいRL問題に解き、適応する能力が高いという仮説から始める。
この仮説を検証するために、エージェントが連続した時間ステップの内部表現間の相互情報を最大化し、未来を予測するよう訓練するDeep InfoMax(DIM)に基づく目的を導入する。
提案手法をいくつかの合成条件で検証し,将来予測可能な表現の学習に成功した。
最後に,強力なRLベースラインであるC51を時間的DIM目標で拡張し,連続学習タスクと最近導入されたProcgen環境の性能向上を実証する。
関連論文リスト
- On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - PI-QT-Opt: Predictive Information Improves Multi-Task Robotic
Reinforcement Learning at Scale [14.444439310266873]
予測情報QT-Optは、予測情報の表現を学習し、シミュレーションおよび実世界における最大297個の視覚に基づくロボット操作タスクを解決する。
予測情報のモデリングはトレーニング作業の成功率を大幅に向上させ,未知の新規タスクへのゼロショット転送を改善することを実証する。
論文 参考訳(メタデータ) (2022-10-15T07:30:31Z) - Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文 参考訳(メタデータ) (2021-08-04T14:57:11Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z) - Data-Efficient Reinforcement Learning with Self-Predictive
Representations [21.223069189953037]
我々はエージェントに、未来への複数のステップを予測させるように訓練する。
この将来の予測目標は, 試料効率の高い深部RLの先行手法よりも優れている。
今後の予測とデータ拡張を組み合わせた完全な自己監督目標が,アタリにおける人間正規化スコアの0.415を達成している。
論文 参考訳(メタデータ) (2020-07-12T07:38:15Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。