論文の概要: Understanding Self-Predictive Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.03319v1
- Date: Tue, 6 Dec 2022 20:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:13:19.131079
- Title: Understanding Self-Predictive Learning for Reinforcement Learning
- Title(参考訳): 強化学習のための自己予測学習の理解
- Authors: Yunhao Tang, Zhaohan Daniel Guo, Pierre Harvey Richemond, Bernardo
\'Avila Pires, Yash Chandak, R\'emi Munos, Mark Rowland, Mohammad Gheshlaghi
Azar, Charline Le Lan, Clare Lyle, Andr\'as Gy\"orgy, Shantanu Thakoor, Will
Dabney, Bilal Piot, Daniele Calandriello, Michal Valko
- Abstract要約: 強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 61.62067048348786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the learning dynamics of self-predictive learning for reinforcement
learning, a family of algorithms that learn representations by minimizing the
prediction error of their own future latent representations. Despite its recent
empirical success, such algorithms have an apparent defect: trivial
representations (such as constants) minimize the prediction error, yet it is
obviously undesirable to converge to such solutions. Our central insight is
that careful designs of the optimization dynamics are critical to learning
meaningful representations. We identify that a faster paced optimization of the
predictor and semi-gradient updates on the representation, are crucial to
preventing the representation collapse. Then in an idealized setup, we show
self-predictive learning dynamics carries out spectral decomposition on the
state transition matrix, effectively capturing information of the transition
dynamics. Building on the theoretical insights, we propose bidirectional
self-predictive learning, a novel self-predictive algorithm that learns two
representations simultaneously. We examine the robustness of our theoretical
insights with a number of small-scale experiments and showcase the promise of
the novel representation learning algorithm with large-scale experiments.
- Abstract(参考訳): 本研究では,自己予測学習の学習ダイナミクスを学習し,予測誤差を最小化して表現を学習するアルゴリズムのファミリーである強化学習について検討する。
最近の経験的成功にもかかわらず、そのようなアルゴリズムには明らかな欠陥がある: 自明な表現(定数など)は予測誤差を最小化するが、そのような解に収束することは明らかに望ましくない。
私たちの中心となる洞察は、最適化ダイナミクスの注意深い設計は意味のある表現を学ぶのに不可欠であるということです。
我々は,予測器の高速化と表現の半段階的な更新が,表現の崩壊を防止する上で重要であることを見出した。
そして、理想化された設定において、自己予測学習のダイナミクスが状態遷移行列上でスペクトル分解を行い、遷移のダイナミクスに関する情報を効果的に取得することを示す。
理論的知見に基づいて,2つの表現を同時に学習する新しい自己予測アルゴリズムである双方向自己予測学習を提案する。
提案する理論的洞察のロバスト性について,多数の小規模実験で検証し,大規模実験による新しい表現学習アルゴリズムの可能性を実証した。
関連論文リスト
- Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Learning invariant representations of time-homogeneous stochastic dynamical systems [27.127773672738535]
我々は,そのダイナミクスを忠実に捉えた状態の表現を学習する問題を研究する。
これは、転送演算子やシステムのジェネレータを学ぶのに役立ちます。
ニューラルネットワークに対する最適化問題として,優れた表現の探索が可能であることを示す。
論文 参考訳(メタデータ) (2023-07-19T11:32:24Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Fortuitous Forgetting in Connectionist Networks [20.206607130719696]
我々は,ニューラルネットワークの学習軌跡を形成するための強力なパラダイムとして,"forget-and-relearn"を紹介した。
forget-and-relearnフレームワークは、画像分類と言語出現文学において、多くの既存の反復的トレーニングアルゴリズムを統合する。
我々は、この理解を活用して、よりターゲットを絞った忘れ操作を設計することで、既存のアルゴリズムを改善する。
論文 参考訳(メタデータ) (2022-02-01T00:15:58Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z) - Self-Adaptive Training: Bridging the Supervised and Self-Supervised
Learning [16.765461276790944]
自己適応型トレーニングは、追加の計算コストを課すことなく、モデル予測によってトレーニングプロセスを動的にキャリブレーションし、強化する統一型トレーニングアルゴリズムです。
ランダムノイズや敵対的な例など、破損したトレーニングデータの深層ネットワークのトレーニングダイナミクスを分析します。
分析の結果, モデル予測はデータ中の有用な情報量を拡大することが可能であり, 強調ラベル情報がない場合にも広く発生することがわかった。
論文 参考訳(メタデータ) (2021-01-21T17:17:30Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。