論文の概要: Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities
- arxiv url: http://arxiv.org/abs/2212.13088v1
- Date: Mon, 26 Dec 2022 11:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:59:09.060508
- Title: Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities
- Title(参考訳): 行動類似性の適応的メタ学習による強化学習のための学習一般化表現
- Authors: Jianda Chen, Sinno Jialin Pan
- Abstract要約: 本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
- 参考スコア(独自算出の注目度): 43.327357653393015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to learn an effective reinforcement learning-based model for control
tasks from high-level visual observations is a practical and challenging
problem. A key to solving this problem is to learn low-dimensional state
representations from observations, from which an effective policy can be
learned. In order to boost the learning of state encoding, recent works are
focused on capturing behavioral similarities between state representations or
applying data augmentation on visual observations. In this paper, we propose a
novel meta-learner-based framework for representation learning regarding
behavioral similarities for reinforcement learning. Specifically, our framework
encodes the high-dimensional observations into two decomposed embeddings
regarding reward and dynamics in a Markov Decision Process (MDP). A pair of
meta-learners are developed, one of which quantifies the reward similarity and
the other quantifies dynamics similarity over the correspondingly decomposed
embeddings. The meta-learners are self-learned to update the state embeddings
by approximating two disjoint terms in on-policy bisimulation metric. To
incorporate the reward and dynamics terms, we further develop a strategy to
adaptively balance their impacts based on different tasks or environments. We
empirically demonstrate that our proposed framework outperforms
state-of-the-art baselines on several benchmarks, including conventional DM
Control Suite, Distracting DM Control Suite and a self-driving task CARLA.
- Abstract(参考訳): 高レベルの視覚的観察から制御タスクを効果的に強化学習ベースで学習する方法は、実用的で困難な問題である。
この問題を解決する鍵は、効果的なポリシーを学ぶことができる観察から低次元の状態表現を学ぶことである。
状態符号化の学習を促進するために、最近の研究は状態表現間の動作の類似性を捉えたり、視覚的な観察にデータ拡張を適用することに焦点を当てている。
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
具体的には,高次元観測をマルコフ決定過程(mdp)における報酬とダイナミクスに関する2つの分解埋め込みに符号化する。
一対のメタリアナーが開発され、一方は報酬の類似性を定量化し、もう一方は対応する分解された埋め込みに対するダイナミクスの類似性を定量化する。
メタラーナーは自己学習して状態埋め込みを更新し、2つの解離項をオン・ポリチック・バイシミュレーション・メトリックで近似することで状態埋め込みを更新する。
報酬とダイナミクスの用語を組み込むため、私たちはさらに、異なるタスクや環境に基づいて彼らの影響を適応的にバランスさせる戦略を開発します。
提案手法は,従来のDM Control Suite,Distracting DM Control Suite,自動運転タスクCARLAなど,いくつかのベンチマークにおいて,最先端のベースラインよりも優れていることを示す。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。