論文の概要: MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence
- arxiv url: http://arxiv.org/abs/2508.13534v1
- Date: Tue, 19 Aug 2025 05:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.811095
- Title: MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence
- Title(参考訳): MimicFunc: 機能的対応による単一人間のビデオからのツール操作
- Authors: Chao Tang, Anxing Xiao, Yuhong Deng, Tianrun Hu, Wenlong Dong, Hanbo Zhang, David Hsu, Hong Zhang,
- Abstract要約: 人間のビデオからツールを操作することは、ロボットを教えるための直感的なアプローチを提供する。
関数フレームとの関数対応を確立するフレームワークであるMimicFuncを提案する。
MimicFuncは、単一のRGB-Dビデオから新しいツールを操作するためのスキルを効果的に一般化する。
- 参考スコア(独自算出の注目度): 18.953496415412335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitating tool manipulation from human videos offers an intuitive approach to teaching robots, while also providing a promising and scalable alternative to labor-intensive teleoperation data collection for visuomotor policy learning. While humans can mimic tool manipulation behavior by observing others perform a task just once and effortlessly transfer the skill to diverse tools for functionally equivalent tasks, current robots struggle to achieve this level of generalization. A key challenge lies in establishing function-level correspondences, considering the significant geometric variations among functionally similar tools, referred to as intra-function variations. To address this challenge, we propose MimicFunc, a framework that establishes functional correspondences with function frame, a function-centric local coordinate frame constructed with keypoint-based abstraction, for imitating tool manipulation skills. Experiments demonstrate that MimicFunc effectively enables the robot to generalize the skill from a single RGB-D human video to manipulating novel tools for functionally equivalent tasks. Furthermore, leveraging MimicFunc's one-shot generalization capability, the generated rollouts can be used to train visuomotor policies without requiring labor-intensive teleoperation data collection for novel objects. Our code and video are available at https://sites.google.com/view/mimicfunc.
- Abstract(参考訳): 人間のビデオからのツール操作は、ロボットを教えるための直感的なアプローチを提供すると同時に、労働集約的な遠隔操作データ収集に代わる有望でスケーラブルな代替手段を提供する。
人間は、他者が一度だけタスクを実行するのを観察し、そのスキルを機能的に等価なタスクのために多種多様なツールに移すことによって、ツール操作の動作を模倣することができるが、現在のロボットはこのレベルの一般化を達成するのに苦労している。
重要な課題は、機能レベルの対応を確立することであり、機能的に類似したツール間の有意な幾何学的変動を考慮し、関数内変分と呼ばれる。
この課題に対処するために,キーポイントに基づく抽象化で構築された関数中心の局所座標フレームである関数フレームとの関数対応を確立するフレームワークであるMimicFuncを提案する。
MimicFuncは、単一のRGB-D人間のビデオから、機能的に同等なタスクのための新しいツールを操作するために、効果的にそのスキルを一般化できることを実証した。
さらに、MimicFuncのワンショット一般化機能を利用して、生成されたロールアウトを使用して、新しいオブジェクトに対して労働集約的な遠隔操作データ収集を必要とせずに、ビジュモータポリシーをトレーニングすることができる。
私たちのコードとビデオはhttps://sites.google.com/view/mimicfunc.comで公開されています。
関連論文リスト
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation [18.953496415412335]
FUNCTOは3次元関数キーポイント表現と関数中心の対応を確立するOSIL方式である。
モジュール型OSIL法とエンド・ツー・エンドの動作クローン法に対するFUNCTOの評価を行った。
論文 参考訳(メタデータ) (2025-02-17T12:34:42Z) - Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Dexterous Grasping [27.124273762587848]
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
機能的空き地を特定するための粒度対応型空き地特徴抽出法を提案する。
握り動作の予測には手動物体間相互作用領域で高活性な粗粒度機能を用いる。
GAAF-Dexは、人間と物体の相互作用からグラニュラリティ・アウェア・アフォーダンスを学習する完全なフレームワークである。
論文 参考訳(メタデータ) (2024-06-30T07:42:57Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Tool Morphology for Contact-Rich Manipulation Tasks with
Differentiable Simulation [27.462052737553055]
本稿では,異なる物理シミュレータを応用して,コンタクトリッチな操作タスクのためのツール形態を自動学習するエンドツーエンドフレームワークを提案する。
提案手法では,タスク性能に関する目的を定義し,タスクの変動をランダムにすることで,頑健な形態学の学習を可能にする。
提案手法の有効性を, ロープの巻き上げ, 箱をひっくり返し, ピースをスクープに押し付けるなど, 様々なシナリオにおける新しいツールの設計手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-04T00:57:36Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。