論文の概要: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- arxiv url: http://arxiv.org/abs/2412.14803v2
- Date: Sun, 04 May 2025 04:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 14:44:43.837812
- Title: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- Title(参考訳): 映像予測政策 : 予測的視覚表現を用いた汎用ロボット政策
- Authors: Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen,
- Abstract要約: ビデオ拡散モデル(VDM)は、将来のフレームを予測し、物理的な世界を強く理解する能力を示す。
本稿では,VDM内の将来予測表現を条件とした暗黙的逆ダイナミクスモデル(VPP)を学習するビデオ予測ポリシーを提案する。
VPPはCalvin ABC-Dの一般化ベンチマークを18.6%改善した。
- 参考スコア(独自算出の注目度): 19.45821593625599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representations play a crucial role in developing generalist robotic policies. Previous vision encoders, typically pre-trained with single-image reconstruction or two-image contrastive learning, tend to capture static information, often neglecting the dynamic aspects vital for embodied tasks. Recently, video diffusion models (VDMs) demonstrate the ability to predict future frames and showcase a strong understanding of physical world. We hypothesize that VDMs inherently produce visual representations that encompass both current static information and predicted future dynamics, thereby providing valuable guidance for robot action learning. Based on this hypothesis, we propose the Video Prediction Policy (VPP), which learns implicit inverse dynamics model conditioned on predicted future representations inside VDMs. To predict more precise future, we fine-tune pre-trained video foundation model on robot datasets along with internet human manipulation data. In experiments, VPP achieves a 18.6\% relative improvement on the Calvin ABC-D generalization benchmark compared to the previous state-of-the-art, and demonstrates a 31.6\% increase in success rates for complex real-world dexterous manipulation tasks. Project page at https://video-prediction-policy.github.io
- Abstract(参考訳): 視覚表現は、汎用的なロボットポリシーの開発において重要な役割を担っている。
従来の視覚エンコーダは、通常、シングルイメージの再構成や2イメージのコントラスト学習で事前訓練され、静的情報をキャプチャする傾向があり、多くの場合、具体的タスクに不可欠な動的な側面を無視する。
近年,映像拡散モデル (VDM) は将来のフレームの予測能力を示し,物理世界に対する深い理解を示す。
我々は、VDMが本質的に現在の静的情報と予測される将来のダイナミクスの両方を含む視覚表現を生成し、ロボット行動学習のための貴重なガイダンスを提供すると仮定する。
この仮説に基づいて,VDM内の予測未来表現を前提とした暗黙的逆ダイナミクスモデルを学習するビデオ予測ポリシー(VPP)を提案する。
より正確な未来を予測するため、ロボットデータセットとインターネットによる人間の操作データに基づいて、事前訓練されたビデオ基盤モデルを微調整する。
実験では、VPPは従来の最先端技術と比較してCalvin ABC-Dの一般化ベンチマークにおいて18.6%の相対的な改善を達成し、複雑な実世界のデクサラスな操作タスクにおける成功率を31.6倍に向上させることを示した。
Project page at https://video-prediction-policy.github.io
関連論文リスト
- Prediction with Action: Visual Policy Learning via Joint Denoising Process [14.588908033404474]
PADは、画像予測とロボットアクションを統合する視覚ポリシー学習フレームワークである。
DiTは画像とロボット状態をシームレスに統合し、将来の画像とロボット動作の同時予測を可能にする。
Padは従来の手法よりも優れており、Metaworldのベンチマークで26.3%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:54:58Z) - Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。
最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。
次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文 参考訳(メタデータ) (2024-04-24T07:58:28Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。