Fugu-MT 論文翻訳(概要): ViPRA: Video Prediction for Robot Actions

論文の概要: ViPRA: Video Prediction for Robot Actions

arxiv url: http://arxiv.org/abs/2511.07732v1
Date: Wed, 12 Nov 2025 01:13:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 20:17:03.450943
Title: ViPRA: Video Prediction for Robot Actions
Title（参考訳）: ViPRA:ロボットアクションのビデオ予測
Authors: Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak,
Abstract要約: 我々は、アクションレスビデオから連続ロボット制御を学ぶためのフレームワークViPRA(Video Prediction for Robot Actions)を提案する。アクションを直接予測する代わりに、将来の視覚的観察と動き中心の潜伏行動の両方を予測するためにビデオ言語モデルを訓練する。下流制御では,潜時動作をロボット固有の連続動作シーケンスにマッピングするチャンクフローマッチングデコーダを導入する。
参考スコア（独自算出の注目度）: 33.310474967770894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can we turn a video prediction model into a robot policy? Videos, including those of humans or teleoperated robots, capture rich physical interactions. However, most of them lack labeled actions, which limits their use in robot learning. We present Video Prediction for Robot Actions (ViPRA), a simple pretraining-finetuning framework that learns continuous robot control from these actionless videos. Instead of directly predicting actions, we train a video-language model to predict both future visual observations and motion-centric latent actions, which serve as intermediate representations of scene dynamics. We train these latent actions using perceptual losses and optical flow consistency to ensure they reflect physically grounded behavior. For downstream control, we introduce a chunked flow matching decoder that maps latent actions to robot-specific continuous action sequences, using only 100 to 200 teleoperated demonstrations. This approach avoids expensive action annotation, supports generalization across embodiments, and enables smooth, high-frequency continuous control upto 22 Hz via chunked action decoding. Unlike prior latent action works that treat pretraining as autoregressive policy learning, explicitly models both what changes and how. Our method outperforms strong baselines, with a 16% gain on the SIMPLER benchmark and a 13% improvement across real world manipulation tasks. We will release models and code at https://vipra-project.github.io
Abstract（参考訳）: ビデオ予測モデルをロボットポリシーに変えることは可能か? 人間や遠隔操作ロボットを含むビデオは、リッチな物理的相互作用を捉えている。しかし、そのほとんどはラベル付きアクションに欠けており、ロボット学習における使用を制限している。本稿では,これらのアクションレスビデオから連続的なロボット制御を学習する,シンプルな事前学習ファインタニングフレームワークViPRAについて紹介する。アクションを直接予測する代わりに、シーンダイナミクスの中間表現として機能する、将来の視覚的観察と動き中心の潜在行動の両方を予測するために、ビデオ言語モデルを訓練する。我々はこれらの潜伏動作を知覚的損失と光学的流れの整合性を用いて訓練し、物理的に接地された動作を確実に反映する。下流制御のためのチャンクフローマッチングデコーダを導入し,100から200個の遠隔操作型デモを用いて,潜伏動作をロボット固有の連続動作シーケンスにマッピングする。このアプローチは高価なアクションアノテーションを回避し、エンボディメント間の一般化をサポートし、チャンクされたアクションデコーディングによって22Hzまでのスムーズで高周波な連続制御を可能にする。事前学習を自己回帰的な政策学習として扱う従来の潜伏行動とは違って、どのような変化と方法の両方を明示的にモデル化する。 SIMPLERベンチマークでは16%,実世界の操作タスクでは13%向上した。モデルとコードはhttps://vipra-project.github.ioでリリースします。

関連論文リスト

MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。視点安定化のためにEgoStabilizerを提案する。動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文参考訳（メタデータ） (2025-09-26T11:05:10Z)
Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。 PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。 ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-08-13T13:54:51Z)
AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文参考訳（メタデータ） (2025-06-17T05:31:42Z)
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文参考訳（メタデータ） (2024-12-05T18:57:04Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。