論文の概要: ActiveMimic: Egocentric Video Pretraining with Active Perception
- arxiv url: http://arxiv.org/abs/2606.06194v1
- Date: Thu, 04 Jun 2026 14:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.837473
- Title: ActiveMimic: Egocentric Video Pretraining with Active Perception
- Title(参考訳): ActiveMimic: アクティブ・パーセプションによるエゴセントリックなビデオトレーニング
- Authors: Xingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: エゴセントリックな人間のビデオは、事前トレーニングのためのロボットデータに代わるスケーラブルな代替手段を提供する。
単体のRGBカメラから同期カメラと手首軌跡を復元する事前学習フレームワークであるActiveMimicを提案する。
我々は,ActiveMimicが人間のビデオで事前訓練されたベースラインを一貫して上回り,ロボットデータで事前訓練された最先端モデルと一致していることを示す。
- 参考スコア(独自算出の注目度): 84.2999803878421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric human video offers a scalable alternative to robot data for pretraining, yet models pretrained on such video consistently underperform those pretrained on robot data. We attribute this gap to a missing signal, the active perception behavior in egocentric videos, where humans continuously reposition their viewpoint during manipulation, inducing camera motion that standard pipelines treat as noise. To address this, we present ActiveMimic, a pretraining framework that recovers synchronized camera and wrist trajectories from a single body-worn RGB camera, models camera motion as a viewpoint action, and jointly learns active perception and manipulation from in-the-wild egocentric human video before adapting to a target robot. Empirically, real-world experiments across tasks with diverse active perception demands show that ActiveMimic consistently surpasses baselines pretrained on human video and matches state-of-the-art models pretrained on robot data. Further analysis provides evidence that active perception capability originates from egocentric human video pretraining rather than robot-specific fine-tuning, confirming active perception as the key to unlocking egocentric human video for robot pretraining.
- Abstract(参考訳): Egocentricの人間ビデオは、事前訓練のためのロボットデータに代わるスケーラブルな代替手段を提供する。
このギャップは、人間が操作中に視点を継続的に再配置し、標準的なパイプラインがノイズとして扱うカメラの動きを誘発する、自我中心の動画におけるアクティブな知覚行動の欠如によるものである。
そこで本研究では,1台のRGBカメラから同期カメラと手首の軌跡を復元し,カメラの動きを視点動作としてモデル化し,対象ロボットに適応する前に,対象ロボットに適応する前に対象ロボットからアクティブな知覚と操作を学習する,事前学習フレームワークであるActiveMimicを提案する。
ActiveMimicは、人間のビデオでトレーニングされたベースラインを一貫して上回り、ロボットデータでトレーニングされた最先端のモデルと一致している。
さらに、アクティブな知覚能力は、ロボット固有の微調整ではなく、エゴセントリックな人間のビデオ事前訓練に由来することを証明し、ロボット事前訓練のためのエゴセントリックな人間のビデオをアンロックする鍵として、アクティブな知覚を確証する。
関連論文リスト
- Co-training with Ego-centric Video and Demonstration for Robot Navigation Task [0.0]
本研究では,エゴセントリックな歩行映像を移動ロボット模倣学習のためのデータセットに変換するフレームワークを提案する。
提案手法は,人間の映像からカメラの動きを推定し,地上移動ロボットと互換性のある動作表現に変換する。
フルーツ検索ナビゲーションタスクの実験は、人間の自我中心のビデオがモバイルロボット学習に効果的でスケーラブルなデータソースを提供することを示した。
論文 参考訳(メタデータ) (2026-06-01T09:12:22Z) - Mitty: Diffusion-based Human-to-Robot Video Generation [57.494785199352975]
我々は,Human2Robotビデオ生成のためのビデオインコンテクスト学習を可能にする拡散変換器であるMittyを提案する。
事前訓練されたビデオ拡散モデルに基づいて構築されたMittyは、強い視覚的時間的事前情報を利用して、人間のデモをアクションラベルや中間抽象化なしでロボット実行ビデオに変換する。
Human2RobotとEPIC-Kitchensの実験によると、Mittyは最先端の結果、目に見えない環境への強力な一般化、人間の観察からスケーラブルなロボット学習のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-12-19T05:52:15Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。
人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。
シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:27:44Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。