論文の概要: Vid2Act: Activate Offline Videos for Visual RL
- arxiv url: http://arxiv.org/abs/2306.03360v2
- Date: Wed, 7 Jun 2023 11:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 10:46:06.630077
- Title: Vid2Act: Activate Offline Videos for Visual RL
- Title(参考訳): Vid2Act: Visual RL用のオフラインビデオのアクティベート
- Authors: Minting Pan, Yitao Zheng, Wendong Zhang, Yunbo Wang, Xiaokang Yang
- Abstract要約: モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
- 参考スコア(独自算出の注目度): 62.43468793011923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining RL models on offline video datasets is a promising way to improve
their training efficiency in online tasks, but challenging due to the inherent
mismatch in tasks, dynamics, and behaviors across domains. A recent model, APV,
sidesteps the accompanied action records in offline datasets and instead
focuses on pretraining a task-irrelevant, action-free world model within the
source domains. We present Vid2Act, a model-based RL method that learns to
transfer valuable action-conditioned dynamics and potentially useful action
demonstrations from offline to online settings. The main idea is to use the
world models not only as simulators for behavior learning but also as tools to
measure the domain relevance for both dynamics representation transfer and
policy transfer. Specifically, we train the world models to generate a set of
time-varying task similarities using a domain-selective knowledge distillation
loss. These similarities serve two purposes: (i) adaptively transferring the
most useful source knowledge to facilitate dynamics learning, and (ii) learning
to replay the most relevant source actions to guide the target policy. We
demonstrate the advantages of Vid2Act over the action-free visual RL
pretraining method in both Meta-World and DeepMind Control Suite.
- Abstract(参考訳): オフラインのビデオデータセットでrlモデルを事前トレーニングすることは、オンラインタスクのトレーニング効率を改善する有望な方法だが、ドメイン間のタスク、ダイナミクス、行動に固有のミスマッチのため、難しい。
最近のモデルであるapvは、関連するアクションレコードをオフラインデータセットでサイドステップし、代わりにソースドメイン内でタスクに依存しないアクションフリーの世界モデルを事前トレーニングすることにフォーカスします。
本稿では,アクションコンディショニング・ダイナミクスと潜在的に有用なアクションデモをオフラインからオンラインに転送することを学ぶモデルベースのrl手法であるvid2actを提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、動的表現伝達とポリシー伝達の両方のドメイン関連性を測定するツールとして使うことである。
具体的には、ドメイン選択的知識蒸留損失を用いて、時間変化タスクの類似性を生成するために、世界モデルを訓練する。
これらの類似性は2つの目的を果たす。
(i)動的学習を促進するために最も有用な情報源知識を適応的に伝達し、
(ii)ターゲットポリシーを導くために最も関連するソースアクションを再生する学習。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [67.45990463611942]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Data-Driven Reinforcement Learning for Virtual Character Animation
Control [0.0]
社会的行動は、世界との物理的相互作用の欠如のために、報酬関数を設計することが困難です。
本稿では,この課題に対処する新しいデータ駆動型ディープRLアプローチであるRLAnimateを提案する。
エージェント,環境,状態,行動といった要素の概念的役割を解明し,エージェントの数学的構造を定式化する。
提案手法を用いて学習したエージェントは,反復的なRL学習プロセスを用いて,多動作を表現するための汎用的アニメーション力学を学習する。
論文 参考訳(メタデータ) (2021-04-13T17:05:27Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。