論文の概要: Masked Contrastive Representation Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.07470v1
- Date: Thu, 15 Oct 2020 02:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:37:02.285770
- Title: Masked Contrastive Representation Learning for Reinforcement Learning
- Title(参考訳): 強化学習のためのマスキングコントラスト表現学習
- Authors: Jinhua Zhu, Yingce Xia, Lijun Wu, Jiajun Deng, Wengang Zhou, Tao Qin,
Houqiang Li
- Abstract要約: コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 202.8261654227565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving sample efficiency is a key research problem in reinforcement
learning (RL), and CURL, which uses contrastive learning to extract high-level
features from raw pixels of individual video frames, is an efficient
algorithm~\citep{srinivas2020curl}. We observe that consecutive video frames in
a game are highly correlated but CURL deals with them independently. To further
improve data efficiency, we propose a new algorithm, masked contrastive
representation learning for RL, that takes the correlation among consecutive
inputs into consideration. In addition to the CNN encoder and the policy
network in CURL, our method introduces an auxiliary Transformer module to
leverage the correlations among video frames. During training, we randomly mask
the features of several frames, and use the CNN encoder and Transformer to
reconstruct them based on the context frames. The CNN encoder and Transformer
are jointly trained via contrastive learning where the reconstructed features
should be similar to the ground-truth ones while dissimilar to others. During
inference, the CNN encoder and the policy network are used to take actions, and
the Transformer module is discarded. Our method achieves consistent
improvements over CURL on $14$ out of $16$ environments from DMControl suite
and $21$ out of $26$ environments from Atari 2600 Games. The code is available
at https://github.com/teslacool/m-curl.
- Abstract(参考訳): サンプル効率の改善は強化学習(rl)における重要な研究課題であり、コントラスト学習を用いて個々のビデオフレームの生画素からハイレベルな特徴を抽出するcurlは効率的なアルゴリズムである。
ゲーム内の連続するビデオフレームは高い相関関係にあるが,CURLは独立して扱う。
さらにデータ効率を向上させるために,連続入力間の相関を考慮したrlのためのマスキングコントラスト表現学習を提案する。
CNNエンコーダとCURLのポリシネットワークに加えて,ビデオフレーム間の相関性を活用するための補助トランスフォーマーモジュールを導入する。
トレーニング中、複数のフレームの特徴をランダムにマスキングし、CNNエンコーダとTransformerを使用してコンテキストフレームに基づいてそれらを再構築する。
cnnエンコーダとトランスフォーマは、コントラスト学習を通じて共同で訓練され、再構成された特徴は他のものと異なるものの、接地した特徴と類似すべきである。
推論の間、cnnエンコーダとポリシーネットワークはアクションを取るために使用され、トランスフォーマーモジュールは破棄される。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
コードはhttps://github.com/teslacool/m-curlで入手できる。
関連論文リスト
- Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - CURL: Contrastive Unsupervised Representations for Reinforcement
Learning [93.57637441080603]
CURLは、コントラスト学習を用いて、生の画素から高レベルの特徴を抽出する。
DeepMind Control Suiteでは、CURLが、状態ベースの機能を使用するメソッドのサンプル効率とほぼ一致した、最初のイメージベースのアルゴリズムである。
論文 参考訳(メタデータ) (2020-04-08T17:40:43Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Temporally Coherent Embeddings for Self-Supervised Video Representation
Learning [2.216657815393579]
本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法は,非ラベル付きビデオデータの固有構造を利用して,埋め込み空間における時間的コヒーレンシを明示的に強制する。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
論文 参考訳(メタデータ) (2020-03-21T12:25:50Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。