論文の概要: Learning State Representations via Retracing in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12600v1
- Date: Wed, 24 Nov 2021 16:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 16:17:44.174277
- Title: Learning State Representations via Retracing in Reinforcement Learning
- Title(参考訳): 強化学習におけるRetracingによる状態表現の学習
- Authors: Changmin Yu, Dong Li, Jianye Hao, Jun Wang, Neil Burgess
- Abstract要約: リトラシングによる学習は、強化学習タスクの状態表現を学習するための自己指導型アプローチである。
本稿では,Retracingによる学習の具体的なインスタンス化であるCycle-Consistency World Model (CCWM)を紹介する。
CCWMは, 試料効率と性能の両面から, 最先端の性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 25.755855290244103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose learning via retracing, a novel self-supervised approach for
learning the state representation (and the associated dynamics model) for
reinforcement learning tasks. In addition to the predictive (reconstruction)
supervision in the forward direction, we propose to include `"retraced"
transitions for representation/model learning, by enforcing the
cycle-consistency constraint between the original and retraced states, hence
improve upon the sample efficiency of learning. Moreover, learning via
retracing explicitly propagates information about future transitions backward
for inferring previous states, thus facilitates stronger representation
learning. We introduce Cycle-Consistency World Model (CCWM), a concrete
instantiation of learning via retracing implemented under existing model-based
reinforcement learning framework. Additionally we propose a novel adaptive
"truncation" mechanism for counteracting the negative impacts brought by the
"irreversible" transitions such that learning via retracing can be maximally
effective. Through extensive empirical studies on continuous control
benchmarks, we demonstrates that CCWM achieves state-of-the-art performance in
terms of sample efficiency and asymptotic performance.
- Abstract(参考訳): 強化学習タスクのための状態表現(および関連するダイナミクスモデル)を学習するための新しい自己教師ありアプローチであるretracingによる学習を提案する。
予測(再構築)による前方方向の監督に加えて,元の状態と再追跡状態のサイクルコンシスタンス制約を強制することにより,表現/モデル学習のための"retraced"遷移を含むことにより,学習のサンプル効率を向上させることを提案する。
さらに,リトラシングによる学習は,過去の状態を推測する上で,将来的な変化に関する情報を後方に伝播させることで,表現学習の促進を図っている。
我々は、既存のモデルに基づく強化学習フレームワークで実装されたretracingによる学習の具体的インスタンス化であるcycle-consistency world model (ccwm)を紹介する。
また,「不可逆的」遷移による負の影響に対処する適応的「乱れ」機構を新たに提案し,リトラクションによる学習が最大限に有効であることを示す。
連続制御ベンチマークに関する広範な実証研究を通じて、CCWMはサンプル効率と漸近性能の点で最先端の性能を達成することを示した。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - ICICLE: Interpretable Class Incremental Continual Learning [35.105786309067895]
Interpretable Class-InCremental LEarning (ICICLE) は、模範的な部分ベースのアプローチを採用する、典型的なフリーアプローチである。
実験の結果,ICICLEは解釈可能性の概念のドリフトを減らし,従来のクラス増分学習手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-14T11:31:45Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。