論文の概要: Physical Autoregressive Model for Robotic Manipulation without Action Pretraining
- arxiv url: http://arxiv.org/abs/2508.09822v1
- Date: Wed, 13 Aug 2025 13:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.915642
- Title: Physical Autoregressive Model for Robotic Manipulation without Action Pretraining
- Title(参考訳): 動作事前訓練を伴わないロボットマニピュレーションのための物理自己回帰モデル
- Authors: Zijian Song, Sihan Qin, Tianshui Chen, Liang Lin, Guangrun Wang,
- Abstract要約: 我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
- 参考スコア(独自算出の注目度): 62.045786177492495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of manipulation data has motivated the use of pretrained large models from other modalities in robotics. In this work, we build upon autoregressive video generation models to propose a Physical Autoregressive Model (PAR), where physical tokens combine frames and actions to represent the joint evolution of the robot and its environment. PAR leverages the world knowledge embedded in video pretraining to understand physical dynamics without requiring action pretraining, enabling accurate video prediction and consistent action trajectories. It also adopts a DiT-based de-tokenizer to model frames and actions as continuous tokens, mitigating quantization errors and facilitating mutual enhancement. Furthermore, we incorporate a causal mask with inverse kinematics, parallel training, and the KV-cache mechanism to further improve performance and efficiency. Experiments on the ManiSkill benchmark show that PAR achieves a 100\% success rate on the PushCube task, matches the performance of action-pretrained baselines on other tasks, and accurately predicts future videos with tightly aligned action trajectories. These findings underscore a promising direction for robotic manipulation by transferring world knowledge from autoregressive video pretraining.
- Abstract(参考訳): 操作データの不足は、ロボット工学における他のモダリティからの事前訓練された大きなモデルの使用を動機付けている。
本研究では,自動回帰ビデオ生成モデルを構築し,物理トークンがフレームとアクションを組み合わせてロボットとその環境の協調進化を表現する物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前学習を必要とせず、物理力学を理解するために、ビデオ事前学習に埋め込まれた世界的知識を活用し、正確なビデオ予測と一貫した行動軌跡を可能にする。
また、フレームとアクションを連続トークンとしてモデル化し、量子化エラーを軽減し、相互強化を容易にするために、DiTベースのデトケナイザも採用している。
さらに、逆キネマティクス、並列トレーニング、KV-cache機構を備えた因果マスクを組み込んで、パフォーマンスと効率をさらに向上する。
ManiSkillベンチマークの実験によると、PARはPushCubeタスクで100倍の成功率を獲得し、他のタスクでのアクション事前ベースラインのパフォーマンスと一致し、厳密に整列されたアクショントラジェクトリで将来のビデオを正確に予測する。
これらの知見は、自己回帰ビデオプレトレーニングから世界知識を移すことによって、ロボット操作の有望な方向性を示す。
関連論文リスト
- Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。