論文の概要: VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
- arxiv url: http://arxiv.org/abs/2602.10098v1
- Date: Tue, 10 Feb 2026 18:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.762181
- Title: VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
- Title(参考訳): VLA-JEPA:潜在世界モデルによるビジョン・ランゲージ・アクションモデルの実現
- Authors: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen,
- Abstract要約: VLA-JEPAは、インターネットスケールビデオにおけるビジョン・ランゲージ・アクション(VLA)ポリシーのためのJEPAスタイルの事前トレーニングフレームワークである。
VLA-JEPAは、画素空間ではなく潜時空間で予測することにより、カメラモーションに対して堅牢なダイナミックス抽象化を学習する。
LIBERO, LIBERO-Plus, SimplerEnv, および実世界の操作タスクの実験は、VLA-JEPAが一般化と堅牢性において一貫した利益を達成することを示した。
- 参考スコア(独自算出の注目度): 22.211528017971403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is \emph{leakage-free state prediction}: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.
- Abstract(参考訳): インターネット規模のビデオに対するVLA(Vision-Language-Action)ポリシーの事前訓練は魅力的だが、現在の潜在アクションの目的はしばしば間違ったことを学習する。
VLA-JEPAはJEPAスタイルの事前トレーニングフレームワークで、これらの落とし穴を設計によって横取りします。
ターゲットエンコーダが将来のフレームから遅延表現を生成するのに対して、学生パスは現在の観察のみを見る -- 将来の情報は、インプットとしてではなく、監督対象としてのみ使用される。
VLA-JEPAは、画素空間ではなく潜時空間で予測することにより、カメラの動きと無関係な背景変化に対して堅牢なダイナミックス抽象化を学習する。
これは単純な2段階のレシピ -- JEPA事前トレーニングに続いてアクションヘッドの微調整 -- を提供する。
LIBERO, LIBERO-Plus, SimplerEnv, および実世界の操作タスクの実験により, VLA-JEPAは既存の手法よりも一般化と堅牢性において一貫した利得が得られることが示された。
関連論文リスト
- Olaf-World: Orienting Latent Actions for Video World Modeling [100.96069208914957]
アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
論文 参考訳(メタデータ) (2026-02-10T18:58:41Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - VITA: Vision-to-Action Flow Matching Policy [27.783132918359545]
VITAはノイズフリーで条件なしのポリシー学習フレームワークである。
フローマッチングを使って視覚表現を潜在アクションにマッピングする。
ALOHAとRoomimicの8つのシミュレーションと2つの実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-07-17T15:41:57Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。