論文の概要: CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
- arxiv url: http://arxiv.org/abs/2601.04061v1
- Date: Wed, 07 Jan 2026 16:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.687788
- Title: CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
- Title(参考訳): CLAP:人間の映像から視覚・言語・行動モデルを学ぶための比較潜在行動訓練
- Authors: Chubin Zhang, Jianan Wang, Zifeng Gao, Yue Su, Tianru Dai, Cai Zhou, Jiwen Lu, Yansong Tang,
- Abstract要約: 本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 73.51386721543135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist Vision-Language-Action models are currently hindered by the scarcity of robotic data compared to the abundance of human video demonstrations. Existing Latent Action Models attempt to leverage video data but often suffer from visual entanglement, capturing noise rather than manipulation skills. To address this, we propose Contrastive Latent Action Pretraining (CLAP), a framework that aligns the visual latent space from videos with a proprioceptive latent space from robot trajectories. By employing contrastive learning, CLAP maps video transitions onto a quantized, physically executable codebook. Building on this representation, we introduce a dual-formulation VLA framework offering both CLAP-NTP, an autoregressive model excelling at instruction following and object generalization, and CLAP-RF, a Rectified Flow-based policy designed for high-frequency, precise manipulation. Furthermore, we propose a Knowledge Matching (KM) regularization strategy to mitigate catastrophic forgetting during fine-tuning. Extensive experiments demonstrate that CLAP significantly outperforms strong baselines, enabling the effective transfer of skills from human videos to robotic execution. Project page: https://lin-shan.com/CLAP/.
- Abstract(参考訳): 一般のVision-Language-Actionモデルは、人間のビデオデモの数に比べて、ロボットデータの不足に悩まされている。
既存の遅延アクションモデルはビデオデータを活用しようとするが、しばしば視覚的な絡み合いに悩まされ、操作スキルよりもノイズを捉えている。
そこで本研究では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
対照的な学習を利用することで、CLAPはビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
この表現に基づいて、命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと、高周波で正確な操作を意図した整流フローベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを導入する。
さらに, 微調整時の破滅的忘れを緩和するための知識マッチング(KM)正則化戦略を提案する。
大規模な実験により、CLAPは強いベースラインを著しく上回り、人間のビデオからロボット実行への効果的な技術移転を可能にした。
プロジェクトページ: https://lin-shan.com/CLAP/。
関連論文リスト
- Learning Skills from Action-Free Videos [20.442392109789772]
我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。
SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
論文 参考訳(メタデータ) (2025-12-23T05:03:33Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation [39.383510768790295]
RynnVLA-001は、人間のデモンストレーションから大規模ビデオ生成前訓練に基づいて構築された視覚言語アクション(VLA)モデルである。
最初のステージであるEgo-Centric Video Generative Pretrainingは、12Mのエゴ中心の操作ビデオ上で、画像からビデオまでのモデルを訓練し、初期フレームと言語命令で条件付けられた将来のフレームを予測する。
第2段階であるHuman-Centric Trajectory-Aware Modelingは、将来のキーポイント軌跡を共同で予測することでこれを拡張し、アクション予測による視覚的フレーム予測を効果的にブリッジする。
論文 参考訳(メタデータ) (2025-09-18T17:58:02Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。