論文の概要: CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning
- arxiv url: http://arxiv.org/abs/2505.17006v1
- Date: Thu, 22 May 2025 17:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.553429
- Title: CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning
- Title(参考訳): CoMo: スケーラブルなロボット学習のためのインターネットビデオからの連続潜伏動作学習
- Authors: Jiange Yang, Yansong Shi, Haoyi Zhu, Mingyu Liu, Kaijing Ma, Yating Wang, Gangshan Wu, Tong He, Limin Wang,
- Abstract要約: CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
- 参考スコア(独自算出の注目度): 47.195002937893115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning latent motion from Internet videos is crucial for building generalist robots. However, existing discrete latent action methods suffer from information loss and struggle with complex and fine-grained dynamics. We propose CoMo, which aims to learn more informative continuous motion representations from diverse, internet-scale videos. CoMo employs a early temporal feature difference mechanism to prevent model collapse and suppress static appearance noise, effectively discouraging shortcut learning problem. Furthermore, guided by the information bottleneck principle, we constrain the latent motion embedding dimensionality to achieve a better balance between retaining sufficient action-relevant information and minimizing the inclusion of action-irrelevant appearance noise. Additionally, we also introduce two new metrics for more robustly and affordably evaluating motion and guiding motion learning methods development: (i) the linear probing MSE of action prediction, and (ii) the cosine similarity between past-to-current and future-to-current motion embeddings. Critically, CoMo exhibits strong zero-shot generalization, enabling it to generate continuous pseudo actions for previously unseen video domains. This capability facilitates unified policy joint learning using pseudo actions derived from various action-less video datasets (such as cross-embodiment videos and, notably, human demonstration videos), potentially augmented with limited labeled robot data. Extensive experiments show that policies co-trained with CoMo pseudo actions achieve superior performance with both diffusion and autoregressive architectures in simulated and real-world settings.
- Abstract(参考訳): インターネットビデオから潜入動作を学ぶことは、ジェネラリストロボットを作るのに不可欠だ。
しかし、既存の離散潜在行動法は情報損失に悩まされ、複雑できめ細かな力学に苦しむ。
多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学習することを目的としたCoMoを提案する。
CoMoは、モデル崩壊を防止し、静的な外観ノイズを抑制し、ショートカット学習問題を効果的に回避するために、早期の時間的特徴差メカニズムを採用している。
さらに,情報ボトルネックの原則に則って,動作関連情報を十分に保持することと,動作関連外見ノイズの最小化とのバランスを改善するために,潜時動作の埋め込み次元を制約する。
さらに,より頑健かつ手頃な動作評価のための2つの新しい指標を導入し,動作学習手法の開発を指導する。
一 行動予測の線形探索MSE及び
(II)過去から未来までの運動埋め込みのコサイン類似性
批判的に、CoMoは強力なゼロショットの一般化を示し、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
この能力は、様々なアクションレスビデオデータセット(例えばクロス・エボディメント・ビデオや人間のデモ・ビデオ)から派生した擬似アクションを使用して、統一されたポリシー共同学習を促進する。
大規模な実験により、CoMo擬似行動と協調して訓練されたポリシーは、シミュレーションおよび実世界の環境での拡散および自己回帰アーキテクチャの両方で優れた性能を達成することが示された。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを単純に制御することで、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals [13.202236467650033]
動画中の動きを推定することは、多くのダウンストリームアプリケーションにおいて重要なコンピュータビジョン問題である。
我々は,事前学習した次フレーム予測モデルから,フローとオクルージョンの自己教師技術であるOps-CWMを開発した。
我々は,ラベル付きデータを必要とせず,実世界の動画における動き推定の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-25T17:58:52Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.48857272250446]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。