Fugu-MT 論文翻訳(概要): Video Prediction Models as Rewards for Reinforcement Learning

論文の概要: Video Prediction Models as Rewards for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.14343v1
Date: Tue, 23 May 2023 17:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 13:28:35.102293
Title: Video Prediction Models as Rewards for Reinforcement Learning
Title（参考訳）: 強化学習のための報酬としての映像予測モデル
Authors: Alejandro Escontrela and Ademi Adeniji and Wilson Yan and Ajay Jain and Xue Bin Peng and Ken Goldberg and Youngwoon Lee and Danijar Hafner and Pieter Abbeel
Abstract要約: VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
参考スコア（独自算出の注目度）: 127.53893027811027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, which are widely available on the internet. We present Video Prediction Rewards (VIPER), an algorithm that leverages pretrained video prediction models as action-free reward signals for reinforcement learning. Specifically, we first train an autoregressive transformer on expert videos and then use the video prediction likelihoods as reward signals for a reinforcement learning agent. VIPER enables expert-level control without programmatic task rewards across a wide range of DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction model allows us to derive rewards for an out-of-distribution environment where no expert data is available, enabling cross-embodiment generalization for tabletop manipulation. We see our work as starting point for scalable reward specification from unlabeled videos that will benefit from the rapid advances in generative modeling. Source code and datasets are available on the project website: https://escontrela.me
Abstract（参考訳）: 複雑な振る舞いを学習できる報酬信号を特定することは、強化学習における長年の課題である。有望なアプローチは、インターネットで広く入手可能なラベルのないビデオから行動の好みを抽出することである。本稿では、事前訓練された映像予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムであるビデオ予測逆数(VIPER)を提案する。具体的には、まずエキスパートビデオに自己回帰変換器を訓練し、次に、強化学習エージェントの報酬信号としてビデオ予測可能性を使用する。 VIPERは、DMC、Atari、RLBenchタスクの幅広い範囲にわたるプログラム的なタスク報酬なしで、専門家レベルの制御を可能にする。さらに,映像予測モデルの一般化により,専門家データがない分散環境における報酬を導き出すことが可能となり,テーブル上操作のクロスエンボディメント一般化が可能となった。当社の作業は、生成モデリングの急速な進歩の恩恵を受ける、ラベルのないビデオによるスケーラブルな報酬仕様の出発点として捉えています。ソースコードとデータセットはプロジェクトのWebサイトで公開されている。

関連論文リスト

Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文参考訳（メタデータ） (2025-03-23T21:24:33Z)
An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文参考訳（メタデータ） (2025-01-09T18:59:58Z)
Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文参考訳（メタデータ） (2024-11-05T15:18:02Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。 4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文参考訳（メタデータ） (2023-03-24T17:18:40Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文参考訳（メタデータ） (2021-05-07T11:29:32Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。 SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-11T05:50:16Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。