論文の概要: Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.09136v1
- Date: Fri, 21 Feb 2020 05:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:15:46.470026
- Title: Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning
- Title(参考訳): 映像予測による制御対象の分離による視覚強化学習の改善
- Authors: Yuanyi Zhong, Alexander Schwing, Jian Peng
- Abstract要約: 多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
- 参考スコア(独自算出の注目度): 82.25034245150582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many vision-based reinforcement learning (RL) problems, the agent controls
a movable object in its visual field, e.g., the player's avatar in video games
and the robotic arm in visual grasping and manipulation. Leveraging
action-conditioned video prediction, we propose an end-to-end learning
framework to disentangle the controllable object from the observation signal.
The disentangled representation is shown to be useful for RL as additional
observation channels to the agent. Experiments on a set of Atari games with the
popular Double DQN algorithm demonstrate improved sample efficiency and game
performance (from 222.8% to 261.4% measured in normalized game scores, with
prediction bonus reward).
- Abstract(参考訳): 多くの視覚ベースの強化学習(rl)問題において、エージェントは、ゲームにおけるプレイヤーのアバターや視覚把握と操作におけるロボットアームなど、その視野内の可動物体を制御する。
動作条件付きビデオ予測を活用することで、制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
人気のDouble DQNアルゴリズムによる一連のアタリゲームの実験では、サンプル効率とゲーム性能が改善された(正規化されたゲームスコアで測定された222.8%から261.4%)。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - ROLL: Visual Self-Supervised Reinforcement Learning with Object
Reasoning [16.18256739680704]
現在の強化学習アルゴリズムは、オブジェクトレベルの推論を行うことなく、画像全体で動作する。
本稿では,オブジェクトレベルの推論とオクルージョン推論を取り入れた従来の視覚自己監督型RLを改善する。
提案アルゴリズムであるROLLは,シミュレーションされた視覚制御タスクにおいて,従来の手法と比較して劇的に高速かつ優れた最終性能を学習する。
論文 参考訳(メタデータ) (2020-11-13T06:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。