論文の概要: VIP: Towards Universal Visual Reward and Representation via
Value-Implicit Pre-Training
- arxiv url: http://arxiv.org/abs/2210.00030v1
- Date: Fri, 30 Sep 2022 18:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:23:28.596020
- Title: VIP: Towards Universal Visual Reward and Representation via
Value-Implicit Pre-Training
- Title(参考訳): VIP:Value-Implicit Pre-Trainingによるユニバーサルビジュアルリワードと表現を目指して
- Authors: Yecheng Jason Ma, Shagun Sodhani, Dinesh Jayaraman, Osbert Bastani,
Vikash Kumar, Amy Zhang
- Abstract要約: リワードと表現学習は、知覚的な観察からロボット操作スキルの拡大を学ぶための、2つの長年の課題である。
本稿では,ロボット作業に対して高密度でスムーズな報酬関数を生成可能な,自己教師付き事前学習型視覚表現であるVIPを紹介する。
VIPは、簡単な$textbffew-shot$ offline RLを、20行以内の現実世界のロボットタスクのスイートで有効にすることができる。
- 参考スコア(独自算出の注目度): 45.07155397964233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward and representation learning are two long-standing challenges for
learning an expanding set of robot manipulation skills from sensory
observations. Given the inherent cost and scarcity of in-domain, task-specific
robot data, learning from large, diverse, offline human videos has emerged as a
promising path towards acquiring a generally useful visual representation for
control; however, how these human videos can be used for general-purpose reward
learning remains an open question. We introduce
$\textbf{V}$alue-$\textbf{I}$mplicit $\textbf{P}$re-training (VIP), a
self-supervised pre-trained visual representation capable of generating dense
and smooth reward functions for unseen robotic tasks. VIP casts representation
learning from human videos as an offline goal-conditioned reinforcement
learning problem and derives a self-supervised dual goal-conditioned
value-function objective that does not depend on actions, enabling pre-training
on unlabeled human videos. Theoretically, VIP can be understood as a novel
implicit time contrastive objective that generates a temporally smooth
embedding, enabling the value function to be implicitly defined via the
embedding distance, which can then be used to construct the reward for any
goal-image specified downstream task. Trained on large-scale Ego4D human videos
and without any fine-tuning on in-domain, task-specific data, VIP's frozen
representation can provide dense visual reward for an extensive set of
simulated and $\textbf{real-robot}$ tasks, enabling diverse reward-based visual
control methods and significantly outperforming all prior pre-trained
representations. Notably, VIP can enable simple, $\textbf{few-shot}$ offline RL
on a suite of real-world robot tasks with as few as 20 trajectories.
- Abstract(参考訳): 報酬と表現学習は、感覚観察からロボット操作スキルの拡張を学ぶための2つの長年の課題である。
ドメイン内のコストとタスク固有のロボットデータの不足を考えると、大規模で多様なオフラインの人的ビデオから学ぶことは、一般的に有用な視覚的表現を得るための有望な道のりとして現れてきたが、これらの人的ビデオが汎用的な報酬学習にどのように使用できるかは、未解決の課題である。
ロボットのタスクに対して、密集したスムーズな報酬関数を生成できる自己教師付き視覚表現である、$\textbf{v}$alue-$\textbf{i}$mplicit $\textbf{p}$re-training (vip)を導入する。
VIPは、人間のビデオからの表現学習をオフラインのゴール条件強化学習問題とみなし、アクションに依存しない自己教師付きデュアルゴール条件値関数目的を導出し、ラベルなしの人間のビデオの事前トレーニングを可能にする。
理論的には、vipは時間的に滑らかな埋め込みを生成し、値関数を埋め込み距離を通じて暗黙的に定義できる新しい暗黙の時間対比目的として理解することができ、任意の目標画像指定下流タスクに対する報酬を構築するのに使うことができる。
大規模なEgo4D人間のビデオで訓練され、ドメイン内、タスク固有のデータを微調整することなく、VIPの凍結表現は、広範囲のシミュレーションと$\textbf{real-robot}$タスクに対して密度の高い視覚報酬を与えることができる。
特に、VIPは、簡単な$\textbf{few-shot}$ offline RLを現実世界のロボットタスクのスイートで、20の軌道しか持たない。
関連論文リスト
- HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - ViSaRL: Visual Reinforcement Learning Guided by Human Saliency [6.969098096933547]
ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。
ViSaRLを用いて視覚表現を学習すると、RLエージェントの成功率、サンプル効率、一般化が大幅に向上する。
ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-03-16T14:52:26Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - LIV: Language-Image Representations and Rewards for Robotic Control [37.12560985663822]
テキストアノテーションを用いたアクションフリービデオから視覚言語表現と報酬学習の統一的な目的について述べる。
我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。
本研究は,統合されたコンパクトなLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
論文 参考訳(メタデータ) (2023-06-01T17:52:23Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。