論文の概要: CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
- arxiv url: http://arxiv.org/abs/2601.04061v1
- Date: Wed, 07 Jan 2026 16:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.687788
- Title: CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
- Title(参考訳): CLAP:人間の映像から視覚・言語・行動モデルを学ぶための比較潜在行動訓練
- Authors: Chubin Zhang, Jianan Wang, Zifeng Gao, Yue Su, Tianru Dai, Cai Zhou, Jiwen Lu, Yansong Tang,
- Abstract要約: 本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 73.51386721543135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist Vision-Language-Action models are currently hindered by the scarcity of robotic data compared to the abundance of human video demonstrations. Existing Latent Action Models attempt to leverage video data but often suffer from visual entanglement, capturing noise rather than manipulation skills. To address this, we propose Contrastive Latent Action Pretraining (CLAP), a framework that aligns the visual latent space from videos with a proprioceptive latent space from robot trajectories. By employing contrastive learning, CLAP maps video transitions onto a quantized, physically executable codebook. Building on this representation, we introduce a dual-formulation VLA framework offering both CLAP-NTP, an autoregressive model excelling at instruction following and object generalization, and CLAP-RF, a Rectified Flow-based policy designed for high-frequency, precise manipulation. Furthermore, we propose a Knowledge Matching (KM) regularization strategy to mitigate catastrophic forgetting during fine-tuning. Extensive experiments demonstrate that CLAP significantly outperforms strong baselines, enabling the effective transfer of skills from human videos to robotic execution. Project page: https://lin-shan.com/CLAP/.
- Abstract(参考訳): 一般のVision-Language-Actionモデルは、人間のビデオデモの数に比べて、ロボットデータの不足に悩まされている。
既存の遅延アクションモデルはビデオデータを活用しようとするが、しばしば視覚的な絡み合いに悩まされ、操作スキルよりもノイズを捉えている。
そこで本研究では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
対照的な学習を利用することで、CLAPはビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
この表現に基づいて、命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと、高周波で正確な操作を意図した整流フローベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを導入する。
さらに, 微調整時の破滅的忘れを緩和するための知識マッチング(KM)正則化戦略を提案する。
大規模な実験により、CLAPは強いベースラインを著しく上回り、人間のビデオからロボット実行への効果的な技術移転を可能にした。
プロジェクトページ: https://lin-shan.com/CLAP/。
関連論文リスト
- Learning Skills from Action-Free Videos [20.442392109789772]
我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。
SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
論文 参考訳(メタデータ) (2025-12-23T05:03:33Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。