論文の概要: Reinforcement Learning with Latent Flow
- arxiv url: http://arxiv.org/abs/2101.01857v1
- Date: Wed, 6 Jan 2021 03:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 08:12:26.249708
- Title: Reinforcement Learning with Latent Flow
- Title(参考訳): 潜流による強化学習
- Authors: Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran,
Yang Gao, Pieter Abbeel, Michael Laskin
- Abstract要約: Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
- 参考スコア(独自算出の注目度): 78.74671595139613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal information is essential to learning effective policies with
Reinforcement Learning (RL). However, current state-of-the-art RL algorithms
either assume that such information is given as part of the state space or,
when learning from pixels, use the simple heuristic of frame-stacking to
implicitly capture temporal information present in the image observations. This
heuristic is in contrast to the current paradigm in video classification
architectures, which utilize explicit encodings of temporal information through
methods such as optical flow and two-stream architectures to achieve
state-of-the-art performance. Inspired by leading video classification
architectures, we introduce the Flow of Latents for Reinforcement Learning
(Flare), a network architecture for RL that explicitly encodes temporal
information through latent vector differences. We show that Flare (i) recovers
optimal performance in state-based RL without explicit access to the state
velocity, solely with positional state information, (ii) achieves
state-of-the-art performance on pixel-based challenging continuous control
tasks within the DeepMind control benchmark suite, namely quadruped walk,
hopper hop, finger turn hard, pendulum swing, and walker run, and is the most
sample efficient model-free pixel-based RL algorithm, outperforming the prior
model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step
benchmarks, respectively, and (iv), when augmented over rainbow DQN,
outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari
games at 100M time step benchmark.
- Abstract(参考訳): 時間情報は強化学習(RL)による効果的な政策学習に不可欠である。
しかし、現在の最先端のRLアルゴリズムは、そのような情報が状態空間の一部として与えられると仮定するか、ピクセルから学ぶとき、フレームスタッキングの単純なヒューリスティックを用いて、画像観察に存在する時間情報を暗黙的にキャプチャする。
このヒューリスティックは、映像分類アーキテクチャの現在のパラダイムとは対照的で、光学フローや2ストリームアーキテクチャといった手法による時間情報の明示的なエンコーディングを利用して、最先端のパフォーマンスを達成する。
本稿では,遅延ベクトル差による時間情報を明示的に符号化するRLのためのネットワークアーキテクチャであるFlow of Latents for Reinforcement Learning(Flare)を紹介する。
We show that Flare (i) recovers optimal performance in state-based RL without explicit access to the state velocity, solely with positional state information, (ii) achieves state-of-the-art performance on pixel-based challenging continuous control tasks within the DeepMind control benchmark suite, namely quadruped walk, hopper hop, finger turn hard, pendulum swing, and walker run, and is the most sample efficient model-free pixel-based RL algorithm, outperforming the prior model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step benchmarks, respectively, and (iv), when augmented over rainbow DQN, outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari games at 100M time step benchmark.
関連論文リスト
- STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。
ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-05-20T02:09:07Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization [0.9507070656654633]
ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
論文 参考訳(メタデータ) (2021-11-05T08:39:36Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。