論文の概要: ViPRA: Video Prediction for Robot Actions
- arxiv url: http://arxiv.org/abs/2511.07732v1
- Date: Wed, 12 Nov 2025 01:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.450943
- Title: ViPRA: Video Prediction for Robot Actions
- Title(参考訳): ViPRA:ロボットアクションのビデオ予測
- Authors: Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak,
- Abstract要約: 我々は、アクションレスビデオから連続ロボット制御を学ぶためのフレームワークViPRA(Video Prediction for Robot Actions)を提案する。
アクションを直接予測する代わりに、将来の視覚的観察と動き中心の潜伏行動の両方を予測するためにビデオ言語モデルを訓練する。
下流制御では,潜時動作をロボット固有の連続動作シーケンスにマッピングするチャンクフローマッチングデコーダを導入する。
- 参考スコア(独自算出の注目度): 33.310474967770894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we turn a video prediction model into a robot policy? Videos, including those of humans or teleoperated robots, capture rich physical interactions. However, most of them lack labeled actions, which limits their use in robot learning. We present Video Prediction for Robot Actions (ViPRA), a simple pretraining-finetuning framework that learns continuous robot control from these actionless videos. Instead of directly predicting actions, we train a video-language model to predict both future visual observations and motion-centric latent actions, which serve as intermediate representations of scene dynamics. We train these latent actions using perceptual losses and optical flow consistency to ensure they reflect physically grounded behavior. For downstream control, we introduce a chunked flow matching decoder that maps latent actions to robot-specific continuous action sequences, using only 100 to 200 teleoperated demonstrations. This approach avoids expensive action annotation, supports generalization across embodiments, and enables smooth, high-frequency continuous control upto 22 Hz via chunked action decoding. Unlike prior latent action works that treat pretraining as autoregressive policy learning, explicitly models both what changes and how. Our method outperforms strong baselines, with a 16% gain on the SIMPLER benchmark and a 13% improvement across real world manipulation tasks. We will release models and code at https://vipra-project.github.io
- Abstract(参考訳): ビデオ予測モデルをロボットポリシーに変えることは可能か?
人間や遠隔操作ロボットを含むビデオは、リッチな物理的相互作用を捉えている。
しかし、そのほとんどはラベル付きアクションに欠けており、ロボット学習における使用を制限している。
本稿では,これらのアクションレスビデオから連続的なロボット制御を学習する,シンプルな事前学習ファインタニングフレームワークViPRAについて紹介する。
アクションを直接予測する代わりに、シーンダイナミクスの中間表現として機能する、将来の視覚的観察と動き中心の潜在行動の両方を予測するために、ビデオ言語モデルを訓練する。
我々はこれらの潜伏動作を知覚的損失と光学的流れの整合性を用いて訓練し、物理的に接地された動作を確実に反映する。
下流制御のためのチャンクフローマッチングデコーダを導入し,100から200個の遠隔操作型デモを用いて,潜伏動作をロボット固有の連続動作シーケンスにマッピングする。
このアプローチは高価なアクションアノテーションを回避し、エンボディメント間の一般化をサポートし、チャンクされたアクションデコーディングによって22Hzまでのスムーズで高周波な連続制御を可能にする。
事前学習を自己回帰的な政策学習として扱う従来の潜伏行動とは違って、どのような変化と方法の両方を明示的にモデル化する。
SIMPLERベンチマークでは16%,実世界の操作タスクでは13%向上した。
モデルとコードはhttps://vipra-project.github.ioでリリースします。
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。