論文の概要: Video Prediction Models as Rewards for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.14343v1
- Date: Tue, 23 May 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:28:35.102293
- Title: Video Prediction Models as Rewards for Reinforcement Learning
- Title(参考訳): 強化学習のための報酬としての映像予測モデル
- Authors: Alejandro Escontrela and Ademi Adeniji and Wilson Yan and Ajay Jain
and Xue Bin Peng and Ken Goldberg and Youngwoon Lee and Danijar Hafner and
Pieter Abbeel
- Abstract要約: VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
- 参考スコア(独自算出の注目度): 127.53893027811027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specifying reward signals that allow agents to learn complex behaviors is a
long-standing challenge in reinforcement learning. A promising approach is to
extract preferences for behaviors from unlabeled videos, which are widely
available on the internet. We present Video Prediction Rewards (VIPER), an
algorithm that leverages pretrained video prediction models as action-free
reward signals for reinforcement learning. Specifically, we first train an
autoregressive transformer on expert videos and then use the video prediction
likelihoods as reward signals for a reinforcement learning agent. VIPER enables
expert-level control without programmatic task rewards across a wide range of
DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction
model allows us to derive rewards for an out-of-distribution environment where
no expert data is available, enabling cross-embodiment generalization for
tabletop manipulation. We see our work as starting point for scalable reward
specification from unlabeled videos that will benefit from the rapid advances
in generative modeling. Source code and datasets are available on the project
website: https://escontrela.me
- Abstract(参考訳): 複雑な振る舞いを学習できる報酬信号を特定することは、強化学習における長年の課題である。
有望なアプローチは、インターネットで広く入手可能なラベルのないビデオから行動の好みを抽出することである。
本稿では、事前訓練された映像予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムであるビデオ予測逆数(VIPER)を提案する。
具体的には、まずエキスパートビデオに自己回帰変換器を訓練し、次に、強化学習エージェントの報酬信号としてビデオ予測可能性を使用する。
VIPERは、DMC、Atari、RLBenchタスクの幅広い範囲にわたるプログラム的なタスク報酬なしで、専門家レベルの制御を可能にする。
さらに,映像予測モデルの一般化により,専門家データがない分散環境における報酬を導き出すことが可能となり,テーブル上操作のクロスエンボディメント一般化が可能となった。
当社の作業は、生成モデリングの急速な進歩の恩恵を受ける、ラベルのないビデオによるスケーラブルな報酬仕様の出発点として捉えています。
ソースコードとデータセットはプロジェクトのWebサイトで公開されている。
関連論文リスト
- An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning [27.233232260388682]
そこで本研究では,シミュレーションや学習を行うビデオから報酬関数を直接生成する,新しい video2reward 手法を提案する。
本手法は,人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回る。
論文 参考訳(メタデータ) (2024-12-07T03:10:27Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文 参考訳(メタデータ) (2023-03-24T17:18:40Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。
我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文 参考訳(メタデータ) (2021-05-07T11:29:32Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。