論文の概要: Contrastive Retrospection: honing in on critical steps for rapid
learning and generalization in RL
- arxiv url: http://arxiv.org/abs/2210.05845v7
- Date: Sat, 28 Oct 2023 00:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:39:04.237764
- Title: Contrastive Retrospection: honing in on critical steps for rapid
learning and generalization in RL
- Title(参考訳): 対照的なふりかえり:RLにおける素早い学習と一般化のための重要なステップについて
- Authors: Chen Sun, Wannan Yang, Thomas Jiralerspong, Dane Malenfant, Benjamin
Alsbury-Nealy, Yoshua Bengio, Blake Richards
- Abstract要約: 我々は、オフラインのコントラスト学習を用いて、重要なステップに注目する新しい強化学習アルゴリズムを提案する。
Contrastive Retrospection (ConSpec)と呼ばれるこのアルゴリズムは、既存のRLアルゴリズムに追加することができる。
- 参考スコア(独自算出の注目度): 44.436494923745734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real life, success is often contingent upon multiple critical steps that
are distant in time from each other and from the final reward. These critical
steps are challenging to identify with traditional reinforcement learning (RL)
methods that rely on the Bellman equation for credit assignment. Here, we
present a new RL algorithm that uses offline contrastive learning to hone in on
these critical steps. This algorithm, which we call Contrastive Retrospection
(ConSpec), can be added to any existing RL algorithm. ConSpec learns a set of
prototypes for the critical steps in a task by a novel contrastive loss and
delivers an intrinsic reward when the current state matches one of the
prototypes. The prototypes in ConSpec provide two key benefits for credit
assignment: (i) They enable rapid identification of all the critical steps.
(ii) They do so in a readily interpretable manner, enabling out-of-distribution
generalization when sensory features are altered. Distinct from other
contemporary RL approaches to credit assignment, ConSpec takes advantage of the
fact that it is easier to retrospectively identify the small set of steps that
success is contingent upon (and ignoring other states) than it is to
prospectively predict reward at every taken step. ConSpec greatly improves
learning in a diverse set of RL tasks. The code is available at the link:
https://github.com/sunchipsster1/ConSpec
- Abstract(参考訳): 実生活では、成功はしばしば、互いに時間的に、そして最終的な報酬から遠ざかる複数の重要なステップに付随する。
これらの重要なステップは、信用代入のベルマン方程式に依存する従来の強化学習(RL)手法と同一視することが難しい。
本稿では、オフラインのコントラスト学習を用いて、これらの重要なステップに注目する新しいRLアルゴリズムを提案する。
Contrastive Retrospection (ConSpec)と呼ばれるこのアルゴリズムは、既存のRLアルゴリズムに追加することができる。
conspecは、新しい対照的な損失によって、タスクのクリティカルステップのプロトタイプセットを学習し、現在の状態がプロトタイプの1つと一致したとき、本質的な報酬を与える。
ConSpecのプロトタイプは2つの重要な利点を提供している。
i) 全ての重要なステップの迅速な識別を可能にする。
(ii)容易に解釈可能で、感覚的特徴が変化した場合の分布の一般化を可能にする。
クレジット・アサインに対する他の現代のRLアプローチとは違い、ConSpecは、成功が(そして他の状態を無視した)相反する小さなステップのセットを、取られたステップごとに前向きに予測することよりも、遡及的に特定することが容易であるという事実を生かしている。
ConSpecは多様なRLタスクの学習を大幅に改善する。
コードはリンクで入手できる。 https://github.com/sunchipsster1/ConSpec
関連論文リスト
- RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文 参考訳(メタデータ) (2022-09-29T16:54:05Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。