論文の概要: Video Prediction Models as Rewards for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.14343v1
- Date: Tue, 23 May 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:28:35.102293
- Title: Video Prediction Models as Rewards for Reinforcement Learning
- Title(参考訳): 強化学習のための報酬としての映像予測モデル
- Authors: Alejandro Escontrela and Ademi Adeniji and Wilson Yan and Ajay Jain
and Xue Bin Peng and Ken Goldberg and Youngwoon Lee and Danijar Hafner and
Pieter Abbeel
- Abstract要約: VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
- 参考スコア(独自算出の注目度): 127.53893027811027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specifying reward signals that allow agents to learn complex behaviors is a
long-standing challenge in reinforcement learning. A promising approach is to
extract preferences for behaviors from unlabeled videos, which are widely
available on the internet. We present Video Prediction Rewards (VIPER), an
algorithm that leverages pretrained video prediction models as action-free
reward signals for reinforcement learning. Specifically, we first train an
autoregressive transformer on expert videos and then use the video prediction
likelihoods as reward signals for a reinforcement learning agent. VIPER enables
expert-level control without programmatic task rewards across a wide range of
DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction
model allows us to derive rewards for an out-of-distribution environment where
no expert data is available, enabling cross-embodiment generalization for
tabletop manipulation. We see our work as starting point for scalable reward
specification from unlabeled videos that will benefit from the rapid advances
in generative modeling. Source code and datasets are available on the project
website: https://escontrela.me
- Abstract(参考訳): 複雑な振る舞いを学習できる報酬信号を特定することは、強化学習における長年の課題である。
有望なアプローチは、インターネットで広く入手可能なラベルのないビデオから行動の好みを抽出することである。
本稿では、事前訓練された映像予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムであるビデオ予測逆数(VIPER)を提案する。
具体的には、まずエキスパートビデオに自己回帰変換器を訓練し、次に、強化学習エージェントの報酬信号としてビデオ予測可能性を使用する。
VIPERは、DMC、Atari、RLBenchタスクの幅広い範囲にわたるプログラム的なタスク報酬なしで、専門家レベルの制御を可能にする。
さらに,映像予測モデルの一般化により,専門家データがない分散環境における報酬を導き出すことが可能となり,テーブル上操作のクロスエンボディメント一般化が可能となった。
当社の作業は、生成モデリングの急速な進歩の恩恵を受ける、ラベルのないビデオによるスケーラブルな報酬仕様の出発点として捉えています。
ソースコードとデータセットはプロジェクトのWebサイトで公開されている。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文 参考訳(メタデータ) (2023-03-24T17:18:40Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。
我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文 参考訳(メタデータ) (2021-05-07T11:29:32Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。