論文の概要: On the Importance of Feature Decorrelation for Unsupervised
Representation Learning in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.05637v1
- Date: Fri, 9 Jun 2023 02:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:56:09.496892
- Title: On the Importance of Feature Decorrelation for Unsupervised
Representation Learning in Reinforcement Learning
- Title(参考訳): 強化学習における教師なし表現学習における特徴非相関の重要性について
- Authors: Hojoon Lee and Koanho Lee and Dongyoon Hwang and Hyunho Lee and
Byungkun Lee and Jaegul Choo
- Abstract要約: 教師なし表現学習(URL)は強化学習(RL)のサンプル効率を改善した
本稿では,潜在多様体の次元を増大させつつ,将来の状態を因果的に予測する新しいURLフレームワークを提案する。
本フレームワークは,Atari 100kベンチマークにおける最先端URL手法のサンプル効率を大幅に向上させるため,崩壊のない予測表現を効果的に学習する。
- 参考スコア(独自算出の注目度): 23.876039876806182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, unsupervised representation learning (URL) has improved the sample
efficiency of Reinforcement Learning (RL) by pretraining a model from a large
unlabeled dataset. The underlying principle of these methods is to learn
temporally predictive representations by predicting future states in the latent
space. However, an important challenge of this approach is the representational
collapse, where the subspace of the latent representations collapses into a
low-dimensional manifold. To address this issue, we propose a novel URL
framework that causally predicts future states while increasing the dimension
of the latent manifold by decorrelating the features in the latent space.
Through extensive empirical studies, we demonstrate that our framework
effectively learns predictive representations without collapse, which
significantly improves the sample efficiency of state-of-the-art URL methods on
the Atari 100k benchmark. The code is available at
https://github.com/dojeon-ai/SimTPR.
- Abstract(参考訳): 近年,unsupervised representation learning(url)は,大きなラベルなしデータセットからモデルを事前学習することにより,強化学習(rl)のサンプル効率を向上させる。
これらの手法の基本的な原理は、潜在空間における将来の状態を予測することによって、時間的予測表現を学ぶことである。
しかし、このアプローチの重要な課題は表現的崩壊であり、潜在表現の部分空間が低次元多様体に崩壊する。
この問題に対処するため,我々は,潜在空間の特徴を関連付けることで潜在多様体の次元を増加させながら,将来の状態を因果的に予測する新しいurlフレームワークを提案する。
atari 100kベンチマークにおける最先端のurlメソッドのサンプル効率を大幅に向上させることで,予測表現を効果的に学習できることを実証した。
コードはhttps://github.com/dojeon-ai/SimTPRで公開されている。
関連論文リスト
- ST-ReP: Learning Predictive Representations Efficiently for Spatial-Temporal Forecasting [7.637123047745445]
自己監督的手法は空間的時間的表現の学習にますます適応している。
現在の値再構成と将来の値予測は、事前学習フレームワークに統合される。
予測能力を高めるために,マルチタイムスケール分析を自己監督的損失に組み込む。
論文 参考訳(メタデータ) (2024-12-19T05:33:55Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。