論文の概要: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- arxiv url: http://arxiv.org/abs/2412.14803v1
- Date: Thu, 19 Dec 2024 12:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:06.201609
- Title: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- Title(参考訳): 映像予測政策 : 予測的視覚表現を用いた汎用ロボット政策
- Authors: Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen,
- Abstract要約: ビデオ拡散モデル(VDM)は、将来の画像シーケンスを正確に予測する能力を示した。
本稿では,VDMからの視覚的表現を前提とした汎用ロボット政策であるビデオ予測ポリシーを提案する。
VPPは、2つのシミュレーションと2つの実世界のベンチマークで、既存のメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.45821593625599
- License:
- Abstract: Recent advancements in robotics have focused on developing generalist policies capable of performing multiple tasks. Typically, these policies utilize pre-trained vision encoders to capture crucial information from current observations. However, previous vision encoders, which trained on two-image contrastive learning or single-image reconstruction, can not perfectly capture the sequential information essential for embodied tasks. Recently, video diffusion models (VDMs) have demonstrated the capability to accurately predict future image sequences, exhibiting a good understanding of physical dynamics. Motivated by the strong visual prediction capabilities of VDMs, we hypothesize that they inherently possess visual representations that reflect the evolution of the physical world, which we term predictive visual representations. Building on this hypothesis, we propose the Video Prediction Policy (VPP), a generalist robotic policy conditioned on the predictive visual representations from VDMs. To further enhance these representations, we incorporate diverse human or robotic manipulation datasets, employing unified video-generation training objectives. VPP consistently outperforms existing methods across two simulated and two real-world benchmarks. Notably, it achieves a 28.1\% relative improvement in the Calvin ABC-D benchmark compared to the previous state-of-the-art and delivers a 28.8\% increase in success rates for complex real-world dexterous manipulation tasks.
- Abstract(参考訳): ロボット工学の最近の進歩は、複数のタスクを実行することのできるジェネラリストポリシーの開発に焦点が当てられている。
通常、これらのポリシーは、訓練済みの視覚エンコーダを使用して、現在の観測から重要な情報をキャプチャする。
しかし、従来の視覚エンコーダは、2次元のコントラスト学習や1次元の再構成で訓練されており、具体的タスクに必要なシーケンシャル情報を完璧に捉えることはできない。
近年,映像拡散モデル (VDM) は将来の画像系列を正確に予測する能力を示し,物理力学の理解を深めている。
VDMの強い視覚的予測能力に触発された我々は、それらが物理的世界の進化を反映した視覚的表現を持ち、予測的視覚的表現(predictive visual representations)と呼ぶ仮説を立てた。
この仮説に基づいて,VDMからの視覚的表現を前提とした一般的なロボット政策であるビデオ予測ポリシー(VPP)を提案する。
これらの表現をさらに強化するため、映像生成訓練の目的を統一して、多様な人間やロボットの操作データセットを組み込んだ。
VPPは、2つのシミュレーションと2つの実世界のベンチマークで、既存のメソッドを一貫して上回っている。
特に、Calvin ABC-Dベンチマークの28.1倍の相対的な改善を実現し、複雑な実世界のデクサラスな操作タスクの成功率を28.8倍に向上させる。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。
最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。
次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文 参考訳(メタデータ) (2024-04-24T07:58:28Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。