Fugu-MT 論文翻訳(概要): Contrastive introspection (ConSpec) to rapidly identify invariant steps for success

論文の概要: Contrastive introspection (ConSpec) to rapidly identify invariant steps for success

arxiv url: http://arxiv.org/abs/2210.05845v1
Date: Wed, 12 Oct 2022 00:35:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 12:50:03.768030
Title: Contrastive introspection (ConSpec) to rapidly identify invariant steps for success
Title（参考訳）: Contrastive Introspection (ConSpec) : 成功のための不変ステップの迅速同定
Authors: Chen Sun, Wannan Yang, Benjamin Alsbury-Nealy, Yoshua Bengio, Blake Richards
Abstract要約: 強化学習(RL)アルゴリズムは近年顕著な成功を収めているが、長期クレジット割り当てにおける根本的な問題に苦戦している。本稿では,ConSpec(Contraspective Introspection)と呼ぶ,オフラインのコントラスト学習を用いたアプローチを提案する。 ConSpecは、その長期クレジット割り当てを改善するために、既存のRLアルゴリズムに追加できるモジュールシステムである。
参考スコア（独自算出の注目度）: 68.38854983416384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) algorithms have achieved notable success in recent years, but still struggle with fundamental issues in long-term credit assignment. It remains difficult to learn in situations where success is contingent upon multiple critical steps that are distant in time from each other and from a sparse reward; as is often the case in real life. Moreover, how RL algorithms assign credit in these difficult situations is typically not coded in a way that can rapidly generalize to new situations. Here, we present an approach using offline contrastive learning, which we call contrastive introspection (ConSpec), that can be added to any existing RL algorithm and addresses both issues. In ConSpec, a contrastive loss is used during offline replay to identify invariances among successful episodes. This takes advantage of the fact that it is easier to retrospectively identify the small set of steps that success is contingent upon than it is to prospectively predict reward at every step taken in the environment. ConSpec stores this knowledge in a collection of prototypes summarizing the intermediate states required for success. During training, arrival at any state that matches these prototypes generates an intrinsic reward that is added to any external rewards. As well, the reward shaping provided by ConSpec can be made to preserve the optimal policy of the underlying RL agent. The prototypes in ConSpec provide two key benefits for credit assignment: (1) They enable rapid identification of all the critical states. (2) They do so in a readily interpretable manner, enabling out of distribution generalization when sensory features are altered. In summary, ConSpec is a modular system that can be added to any existing RL algorithm to improve its long-term credit assignment.
Abstract（参考訳）: 強化学習(RL)アルゴリズムは近年顕著な成功を収めているが、長期クレジット割り当てにおける根本的な問題に苦戦している。成功が互いに時間と疎い報酬から遠ざかる複数の重要なステップに連続している状況で学ぶことは依然として困難であり、現実の生活ではよくあることだ。さらに、これらの困難な状況においてRLアルゴリズムがクレジットを割り当てる方法は通常、新しい状況に迅速に一般化できる方法ではコーディングされない。本稿では,既存のRLアルゴリズムに追加可能なコントラストイントロスペクション(ConSpec)という,オフラインのコントラスト学習を用いたアプローチを提案する。 ConSpecでは、オフライン再生中にコントラスト損失を使用して、成功したエピソード間の不変性を識別する。これは、成功が付随する小さなステップのセットを振り返り的に識別することが、環境で行われるすべてのステップで報奨を前向きに予測することよりも容易であるという事実を生かしている。 ConSpecはこの知識を、成功に必要な中間状態を要約したプロトタイプのコレクションに格納する。トレーニング中、これらのプロトタイプにマッチした状態に到達すると、外部の報酬に追加される固有の報酬が生成される。また、ConSpecによって提供される報酬形成は、基礎となるRLエージェントの最適ポリシーを維持するために行われる。 ConSpecのプロトタイプは、クレジット割り当てに2つの重要な利点を提供している。 2) 感覚的特徴が変化したときの分布の一般化を可能とし, 容易に解釈可能な方法で行う。要約すると、ConSpecは、その長期クレジット割り当てを改善するために、既存のRLアルゴリズムに追加できるモジュールシステムである。

関連論文リスト

RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文参考訳（メタデータ） (2022-09-29T16:54:05Z)
RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文参考訳（メタデータ） (2021-12-20T18:55:16Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Cross-Trajectory Representation Learning for Zero-Shot Generalization in RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文参考訳（メタデータ） (2021-06-04T00:43:10Z)
On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文参考訳（メタデータ） (2021-05-29T19:48:51Z)
Trying AGAIN instead of Trying Longer: Prior Learning for Automatic Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文参考訳（メタデータ） (2020-04-07T07:30:27Z)
Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文参考訳（メタデータ） (2020-02-25T18:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。