論文の概要: Learning Invariant Representations for Reinforcement Learning without
Reconstruction
- arxiv url: http://arxiv.org/abs/2006.10742v2
- Date: Wed, 7 Apr 2021 01:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:52:36.137958
- Title: Learning Invariant Representations for Reinforcement Learning without
Reconstruction
- Title(参考訳): リコンストラクションのない強化学習のための学習不変表現
- Authors: Amy Zhang, Rowan McAllister, Roberto Calandra, Yarin Gal, Sergey
Levine
- Abstract要約: 本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 98.33235415273562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how representation learning can accelerate reinforcement learning
from rich observations, such as images, without relying either on domain
knowledge or pixel-reconstruction. Our goal is to learn representations that
both provide for effective downstream control and invariance to task-irrelevant
details. Bisimulation metrics quantify behavioral similarity between states in
continuous MDPs, which we propose using to learn robust latent representations
which encode only the task-relevant information from observations. Our method
trains encoders such that distances in latent space equal bisimulation
distances in state space. We demonstrate the effectiveness of our method at
disregarding task-irrelevant information using modified visual MuJoCo tasks,
where the background is replaced with moving distractors and natural videos,
while achieving SOTA performance. We also test a first-person highway driving
task where our method learns invariance to clouds, weather, and time of day.
Finally, we provide generalization results drawn from properties of
bisimulation metrics, and links to causal inference.
- Abstract(参考訳): 表現学習は,画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼らずに促進する。
我々の目標は、効果的な下流制御とタスクの無関係な詳細への不変性の両方を提供する表現を学ぶことです。
実測値からタスク関連情報のみを符号化した頑健な潜在表現を学習するために, 連続MDPにおける状態間の行動類似性を定量的に評価する。
提案手法は,潜在空間における距離が状態空間におけるバイシミュレーション距離と等しいようなエンコーダを訓練する。
提案手法の有効性を示すために,修正された視覚的 MuJoCo タスクを用いてタスク非関連情報を無視する手法を提案する。
また,雲や天気,日中の時間との相違を学習する1対1の高速道路運転課題についても検討した。
最後に,バイシミュレーションメトリクスの特性や因果推論へのリンクから得られる一般化結果について述べる。
関連論文リスト
- Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Constrained Mean Shift for Representation Learning [17.652439157554877]
我々は,新たな知識を活用できる非コントラスト表現学習法を開発した。
本研究の主な目的は,近傍の探索空間を制約することで平均シフトアルゴリズムを一般化することである。
本研究では,モダリティ間の雑音制約を利用して,自己教師付きビデオモデルのトレーニングを行うことが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-19T23:14:23Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。