論文の概要: MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.02714v1
- Date: Mon, 2 Sep 2024 18:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 18:06:49.984062
- Title: MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning
- Title(参考訳): MOOSS:視覚強化学習におけるスムーズな状態進化のためのマスクによる時間的コントラスト学習
- Authors: Jiarui Sun, M. Ugur Akcal, Wei Zhang, Girish Chowdhary,
- Abstract要約: 視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 8.61492882526007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In visual Reinforcement Learning (RL), learning from pixel-based observations poses significant challenges on sample efficiency, primarily due to the complexity of extracting informative state representations from high-dimensional data. Previous methods such as contrastive-based approaches have made strides in improving sample efficiency but fall short in modeling the nuanced evolution of states. To address this, we introduce MOOSS, a novel framework that leverages a temporal contrastive objective with the help of graph-based spatial-temporal masking to explicitly model state evolution in visual RL. Specifically, we propose a self-supervised dual-component strategy that integrates (1) a graph construction of pixel-based observations for spatial-temporal masking, coupled with (2) a multi-level contrastive learning mechanism that enriches state representations by emphasizing temporal continuity and change of states. MOOSS advances the understanding of state dynamics by disrupting and learning from spatial-temporal correlations, which facilitates policy learning. Our comprehensive evaluation on multiple continuous and discrete control benchmarks shows that MOOSS outperforms previous state-of-the-art visual RL methods in terms of sample efficiency, demonstrating the effectiveness of our method. Our code is released at https://github.com/jsun57/MOOSS.
- Abstract(参考訳): 視覚強化学習(RL)では、高次元データから情報的状態表現を抽出する複雑さにより、ピクセルベースの観察から学ぶことがサンプル効率に重大な課題を生じさせる。
対照的なアプローチのような従来の手法は、サンプル効率を改善するために進歩してきたが、状態の微妙な進化をモデル化するには不足している。
この問題に対処するため,視覚的RLにおける状態進化を明示的にモデル化するために,グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を利用する新しいフレームワークMOOSSを導入する。
具体的には,(1)空間的マスキングのための画素ベース観測のグラフ構築と,(2)時間的連続性と状態の変化を強調することで状態表現を充実させるマルチレベルコントラスト学習機構を統合した,自己監督型デュアルコンポーネント戦略を提案する。
MOOSSは、空間的時間的相関から学び、政策学習を促進することによって、状態ダイナミクスの理解を促進する。
複数の連続的および離散的な制御ベンチマークに対する総合的な評価により、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れており、本手法の有効性が示されている。
私たちのコードはhttps://github.com/jsun57/MOOSS.comでリリースされています。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Integrating Contrastive Learning with Dynamic Models for Reinforcement
Learning from Images [31.413588478694496]
我々は、学習した埋め込みのマルコビアン性を明確に改善することが望ましいと論じている。
コントラスト学習と動的モデルを統合する自己教師付き表現学習法を提案する。
論文 参考訳(メタデータ) (2022-03-02T14:39:17Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition [15.701647552427708]
整合正則化に基づく高次特徴写像に基づく代理監視信号を得るための新しい手法を提案する。
本手法は,動作認識のための最先端の自己教師型学習法と比較して,大幅に改善されている。
論文 参考訳(メタデータ) (2020-08-05T12:41:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。