論文の概要: Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.07016v1
- Date: Tue, 18 Jan 2022 14:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:39:58.271710
- Title: Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning
- Title(参考訳): データ効率強化学習におけるビュー一貫性のあるダイナミクスによる表現学習の促進
- Authors: Tao Huang, Jiachen Wang, Xiao Chen
- Abstract要約: 本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
- 参考スコア(独自算出の注目度): 12.485293708638292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning informative representations from image-based observations is of
fundamental concern in deep Reinforcement Learning (RL). However,
data-inefficiency remains a significant barrier to this objective. To overcome
this obstacle, we propose to accelerate state representation learning by
enforcing view-consistency on the dynamics. Firstly, we introduce a formalism
of Multi-view Markov Decision Process (MMDP) that incorporates multiple views
of the state. Following the structure of MMDP, our method, View-Consistent
Dynamics (VCD), learns state representations by training a view-consistent
dynamics model in the latent space, where views are generated by applying data
augmentation to states. Empirical evaluation on DeepMind Control Suite and
Atari-100k demonstrates VCD to be the SoTA data-efficient algorithm on visual
control tasks.
- Abstract(参考訳): 画像に基づく観察から情報表現を学ぶことは、深層強化学習(RL)の基本的関心事である。
しかし、データ非効率はこの目的にとって重要な障壁である。
この障害を克服するため,我々は,ダイナミクスのビュー一貫性を強制することにより,状態表現学習を高速化する。
まず,多視点マルコフ決定過程(MMDP)の定式化について述べる。
本手法はmmdpの構造に従い,潜在空間におけるビュー一貫性ダイナミクスモデルをトレーニングすることで状態表現を学習し,状態へのデータ拡張を適用してビューを生成する。
DeepMind Control SuiteとAtari-100kの実証的な評価により、VCDは視覚制御タスクにおけるSoTAデータ効率アルゴリズムであることが示された。
関連論文リスト
- Dynamical-VAE-based Hindsight to Learn the Causal Dynamics of Factored-POMDPs [9.662551514840388]
オフライン軌道から因果マルコフ力学を学習するための動的変分自動エンコーダ(DVAE)を提案する。
提案手法では,過去,現在,多段階の将来の情報を統合した拡張後視フレームワークを用いる。
実験結果から,本手法はヒストリベースや典型的な後視モデルよりも隠れ状態遷移を効率的に管理する因果グラフを明らかにする。
論文 参考訳(メタデータ) (2024-11-12T14:27:45Z) - MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。