論文の概要: Latent Action Pretraining Through World Modeling
- arxiv url: http://arxiv.org/abs/2509.18428v1
- Date: Mon, 22 Sep 2025 21:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.593827
- Title: Latent Action Pretraining Through World Modeling
- Title(参考訳): 世界モデリングによる潜在行動予知
- Authors: Bahey Tharwat, Yara Nasser, Ali Abouzeid, Ian Reid,
- Abstract要約: 自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
- 参考スコア(独自算出の注目度): 1.988007188564225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have gained popularity for learning robotic manipulation tasks that follow language instructions. State-of-the-art VLAs, such as OpenVLA and $\pi_{0}$, were trained on large-scale, manually labeled action datasets collected through teleoperation. More recent approaches, including LAPA and villa-X, introduce latent action representations that enable unsupervised pretraining on unlabeled datasets by modeling abstract visual changes between frames. Although these methods have shown strong results, their large model sizes make deployment in real-world settings challenging. In this work, we propose LAWM, a model-agnostic framework to pretrain imitation learning models in a self-supervised way, by learning latent action representations from unlabeled video data through world modeling. These videos can be sourced from robot recordings or videos of humans performing actions with everyday objects. Our framework is designed to be effective for transferring across tasks, environments, and embodiments. It outperforms models trained with ground-truth robotics actions and similar pretraining methods on the LIBERO benchmark and real-world setup, while being significantly more efficient and practical for real-world settings.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、言語命令に従うロボット操作タスクを学ぶことで人気を集めている。
OpenVLAや$\pi_{0}$のような最先端のVLAは、遠隔操作を通じて収集された大規模で手動でラベル付けされたアクションデータセットでトレーニングされた。
LAPAやVilla-Xといった最近のアプローチでは、フレーム間の抽象的な視覚的変化をモデル化することで、ラベル付きデータセット上で教師なしの事前トレーニングを可能にする潜在アクション表現が導入されている。
これらの手法は強い結果を示しているが、その大きなモデルサイズは、実際の環境でのデプロイメントを困難にしている。
本研究では、ラベルなしビデオデータから潜在動作表現を学習し、自己教師付きで模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
これらのビデオは、ロボットの録画や、人間が日常の物体で行動するビデオから得られる。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
LIBEROベンチマークや実世界の設定において、地上の真剣なロボティクスアクションや同様の事前訓練手法で訓練されたモデルよりも優れており、実際の設定でははるかに効率的で実用的だ。
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。