論文の概要: ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.00557v1
- Date: Sat, 31 Jan 2026 06:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:17:44.701415
- Title: ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation
- Title(参考訳): ConLA:ロボットマニピュレーションのための人間ビデオからの対照的な潜在行動学習
- Authors: Weisheng Dai, Kai Lan, Jianyi Zhou, Bo Zhao, Xiu Su, Junwen Tong, Weili Guan, Shuo Yang,
- Abstract要約: 人間のビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。
人間のビデオのみに事前学習を行うことで、実際のロボット軌道事前学習で得られた性能を初めて上回ります。
- 参考スコア(独自算出の注目度): 27.54751123419347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models achieve preliminary generalization through pretraining on large scale robot teleoperation datasets. However, acquiring datasets that comprehensively cover diverse tasks and environments is extremely costly and difficult to scale. In contrast, human demonstration videos offer a rich and scalable source of diverse scenes and manipulation behaviors, yet their lack of explicit action supervision hinders direct utilization. Prior work leverages VQ-VAE based frameworks to learn latent actions from human videos in an unsupervised manner. Nevertheless, since the training objective primarily focuses on reconstructing visual appearances rather than capturing inter-frame dynamics, the learned representations tend to rely on spurious visual cues, leading to shortcut learning and entangled latent representations that hinder transferability. To address this, we propose ConLA, an unsupervised pretraining framework for learning robotic policies from human videos. ConLA introduces a contrastive disentanglement mechanism that leverages action category priors and temporal cues to isolate motion dynamics from visual content, effectively mitigating shortcut learning. Extensive experiments show that ConLA achieves strong performance across diverse benchmarks. Notably, by pretraining solely on human videos, our method for the first time surpasses the performance obtained with real robot trajectory pretraining, highlighting its ability to extract pure and semantically consistent latent action representations for scalable robot learning.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは,大規模ロボット遠隔操作データセットの事前学習を通じて,予備的な一般化を実現する。
しかし、多様なタスクや環境を包括的にカバーするデータセットを取得することは、非常にコストがかかり、スケールが難しい。
対照的に、人間のデモビデオは多様なシーンや操作行動のリッチでスケーラブルなソースを提供するが、明示的な行動監督の欠如は直接的な利用を妨げる。
以前の作業では、VQ-VAEベースのフレームワークを使用して、人間のビデオから教師なしの方法で潜伏アクションを学ぶ。
それにもかかわらず、トレーニングの目的は、フレーム間のダイナミクスをキャプチャするよりも、視覚的な外観の再構築に重点を置いているため、学習された表現は、急激な視覚的手がかりに依存する傾向があり、短絡学習や、伝達可能性を妨げる潜伏表現に繋がる。
これを解決するために,人間ビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。
ConLAは、アクションカテゴリの先行と時間的手がかりを活用して、視覚的コンテンツからモーションダイナミクスを分離し、ショートカット学習を効果的に緩和する、コントラスト的なアンタングルメントメカニズムを導入している。
大規模な実験により、さまざまなベンチマークで、ConLAは強力なパフォーマンスを実現している。
特に,人間のビデオのみを事前学習することにより,実際のロボットの軌道を事前学習することで得られた性能を初めて上回り,スケーラブルなロボット学習のための純粋で意味的に一貫性のある潜在動作表現を抽出する能力を強調した。
関連論文リスト
- CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。