論文の概要: Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.04935v1
- Date: Mon, 11 Oct 2021 00:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 09:58:48.402700
- Title: Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning
- Title(参考訳): データ効率強化学習のための時間整合表現の学習
- Authors: Trevor McInroe, Lukas Sch\"afer, Stefano V. Albrecht
- Abstract要約: $k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
- 参考スコア(独自算出の注目度): 3.308743964406687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) agents that exist in high-dimensional state
spaces, such as those composed of images, have interconnected learning burdens.
Agents must learn an action-selection policy that completes their given task,
which requires them to learn a representation of the state space that discerns
between useful and useless information. The reward function is the only
supervised feedback that RL agents receive, which causes a representation
learning bottleneck that can manifest in poor sample efficiency. We present
$k$-Step Latent (KSL), a new representation learning method that enforces
temporal consistency of representations via a self-supervised auxiliary task
wherein agents learn to recurrently predict action-conditioned representations
of the state space. The state encoder learned by KSL produces low-dimensional
representations that make optimization of the RL task more sample efficient.
Altogether, KSL produces state-of-the-art results in both data efficiency and
asymptotic performance in the popular PlaNet benchmark suite. Our analyses show
that KSL produces encoders that generalize better to new tasks unseen during
training, and its representations are more strongly tied to reward, are more
invariant to perturbations in the state space, and move more smoothly through
the temporal axis of the RL problem than other methods such as DrQ, RAD, CURL,
and SAC-AE.
- Abstract(参考訳): 画像などの高次元状態空間に存在する深層強化学習(rl)エージェントは、相互に学習の負担を負っている。
エージェントは、与えられたタスクを完了させるアクション選択ポリシーを学習しなければならず、有用な情報と役に立たない情報を区別する状態空間の表現を学習する必要がある。
報酬関数は、rlエージェントが受信する唯一の教師付きフィードバックであり、サンプル効率の悪い表現学習ボトルネックを引き起こす。
エージェントが状態空間の動作条件付き表現を逐次予測する自己教師付き補助タスクを通じて表現の時間的一貫性を強制する新しい表現学習法であるKSL(Kk$-Step Latent)を提案する。
KSLによって学習された状態エンコーダは、RLタスクの最適化をより効率的にする低次元表現を生成する。
さらにKSLは、一般的なベンチマークスイートであるPlaNetにおいて、データ効率と漸近性能の両面で最先端の結果を生成する。
解析の結果、KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成し、その表現は報酬に強く結びついており、状態空間の摂動に対してより不変であり、RL問題の時間軸をDrQ、RAD、CURL、SAC-AEといった他の手法よりもスムーズに移動する。
関連論文リスト
- iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-28T14:38:12Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。