論文の概要: Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos
- arxiv url: http://arxiv.org/abs/2602.13197v1
- Date: Fri, 13 Feb 2026 18:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.09
- Title: Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos
- Title(参考訳): 動作のイミテーション:人間のビデオから学ぶシミュレーション・フィルターによるモジュラーポリシー
- Authors: Albert J. Zhai, Kuo-Hao Zeng, Jiasen Lu, Ali Farhadi, Shenlong Wang, Wei-Chiu Ma,
- Abstract要約: 本研究では,様々な動作を行う前に物体をつかむタスクを包括的操作に対処する。
人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、必要な把握行動を学ぶのにはあまり役に立たない。
本稿では、人間の動画モーションデータを用いたモジュラー操作ポリシーをトレーニングするためのフレームワークであるPerceive-Simulate-Imitate(PSI)を提案する。
- 参考スコア(独自算出の注目度): 56.510263910611684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn manipulation skills by watching videos of humans has the potential to unlock a new source of highly scalable data for robot learning. Here, we tackle prehensile manipulation, in which tasks involve grasping an object before performing various post-grasp motions. Human videos offer strong signals for learning the post-grasp motions, but they are less useful for learning the prerequisite grasping behaviors, especially for robots without human-like hands. A promising way forward is to use a modular policy design, leveraging a dedicated grasp generator to produce stable grasps. However, arbitrary stable grasps are often not task-compatible, hindering the robot's ability to perform the desired downstream motion. To address this challenge, we present Perceive-Simulate-Imitate (PSI), a framework for training a modular manipulation policy using human video motion data processed by paired grasp-trajectory filtering in simulation. This simulation step extends the trajectory data with grasp suitability labels, which allows for supervised learning of task-oriented grasping capabilities. We show through real-world experiments that our framework can be used to learn precise manipulation skills efficiently without any robot data, resulting in significantly more robust performance than using a grasp generator naively.
- Abstract(参考訳): 人間のビデオを見て操作スキルを学ぶ能力は、ロボット学習のための高度にスケーラブルなデータの新しいソースをアンロックする可能性がある。
そこで本研究では,様々な動作を行う前に,物体をつかむタスクを包括的に操作する手法を提案する。
人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、特に人間のような手のないロボットにとって、必要な把握行動を学ぶのにはあまり役に立たない。
将来有望な方法は、モジュール方式のポリシー設計を使用することで、専用のグリップジェネレータを利用して安定したグリップを生成することである。
しかし、任意の安定グリップはタスク互換ではないことが多く、ロボットが所望の下流の動きを実行することを妨げている。
この課題に対処するために、シミュレーションにおいてペアグリップ軌道フィルタリングによって処理された人間のビデオモーションデータを用いてモジュラー操作ポリシーをトレーニングするフレームワークであるPerceive-Simulate-Imitate (PSI)を提案する。
このシミュレーションステップは、軌道データを把握可能なラベルで拡張し、タスク指向の把握能力の教師あり学習を可能にする。
実世界の実験を通して,我々のフレームワークはロボットのデータを使わずに,正確な操作スキルを効率的に学習することができることを示す。
関連論文リスト
- Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.20969802675097]
クローズドループのピボット操作を学習するためのフレームワークを提案する。
計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。
また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2025-08-01T21:33:46Z) - Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos [43.836197294180316]
そこで本研究では,より効率的なポリシー学習を実現するために,よりリッチな操作を生かした創発的ロボット操作手法であるMAPLEを提案する。
具体的には、手動接触時の手動接触点と詳細な手動ポーズを予測し、学習した特徴を用いて下流操作タスクのポリシーを訓練する。
論文 参考訳(メタデータ) (2025-04-08T14:25:25Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。