論文の概要: ConSpec: honing in on critical steps for rapid learning and
generalization in RL
- arxiv url: http://arxiv.org/abs/2210.05845v5
- Date: Thu, 14 Sep 2023 07:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:40:07.493193
- Title: ConSpec: honing in on critical steps for rapid learning and
generalization in RL
- Title(参考訳): ConSpec:RLにおける迅速な学習と一般化のための重要なステップについて
- Authors: Chen Sun, Wannan Yang, Thomas Jiralerspong, Dane Malenfant, Benjamin
Alsbury-Nealy, Yoshua Bengio, Blake Richards
- Abstract要約: 我々は、コントラスト学習を用いて、重要なステップにこだわる新しい強化学習アルゴリズムを提案する。
ConSpecは、新しい対照的な損失によって、タスクの重要なステップのためのプロトタイプのセットを学習する。
成功するステップの小さなセットを振り返って特定するのは、環境にあるすべてのステップにおいて、前向きに報酬を予測するよりも容易です。
- 参考スコア(独自算出の注目度): 44.436494923745734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real life, success is often contingent upon multiple critical steps that
are distant in time from each other and from the final reward. These critical
steps are challenging to identify with traditional reinforcement learning (RL)
methods that rely on the Bellman equation for credit assignment. Here, we
present a new RL algorithm that uses offline contrastive learning to hone in on
critical steps. This algorithm, which we call contrastive introspection
(ConSpec), can be added to any existing RL algorithm. ConSpec learns a set of
prototypes for the critical steps in a task by a novel contrastive loss and
delivers an intrinsic reward when the current state matches one of these
prototypes. The prototypes in ConSpec provide two key benefits for credit
assignment: (1) They enable rapid identification of all the critical steps. (2)
They do so in a readily interpretable manner, enabling out-of-distribution
generalization when sensory features are altered. Distinct from other
contemporary RL approaches to credit assignment, ConSpec takes advantage of the
fact that it is easier to retrospectively identify the small set of steps that
success is contingent upon than it is to prospectively predict reward at every
step taken in the environment. Altogether, ConSpec improves learning in a
diverse set of RL tasks, including both those with explicit, discrete critical
steps and those with complex, continuous critical steps.
- Abstract(参考訳): 実生活では、成功はしばしば、互いに時間的に、そして最終的な報酬から遠ざかる複数の重要なステップに付随する。
これらの重要なステップは、信用代入のベルマン方程式に依存する従来の強化学習(RL)手法と同一視することが難しい。
ここでは、オフラインのコントラスト学習を用いて重要なステップに注目する新しいRLアルゴリズムを提案する。
このアルゴリズムはコントラストイントロスペクション(ConSpec)と呼ばれ、既存のRLアルゴリズムに追加することができる。
conspecは、新しい対照的な損失によって、タスクのクリティカルステップのプロトタイプセットを学習し、現在の状態がこれらのプロトタイプの1つにマッチすると、本質的な報酬を与える。
ConSpecのプロトタイプは、クレジット代入に2つの重要な利点を提供している。
2) 容易に解釈可能な方法で実施し,感覚的特徴が変化した場合の分布の一般化を可能にする。
他の現代のRLアプローチと異なり、ConSpecは、成功が待ち受けている小さなステップのセットを、環境におけるすべてのステップで前向きに報酬を予測するよりも、遡及的に特定することが容易であるという事実を生かしている。
さらにConSpecは、明示的で離散的なクリティカルステップと、複雑で連続的なクリティカルステップの両方を含む、さまざまなRLタスクの学習を改善する。
関連論文リスト
- RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文 参考訳(メタデータ) (2022-09-29T16:54:05Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。