論文の概要: VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
- arxiv url: http://arxiv.org/abs/2509.20322v1
- Date: Wed, 24 Sep 2025 17:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.9162
- Title: VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
- Title(参考訳): VisualMimic:モーショントラッキングと生成によるビジュアルヒューマノイドロコマニピュレーション
- Authors: Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu,
- Abstract要約: VisualMimicは、ヒューマノイドロボットのための階層的な全身制御で自我中心のビジョンを統一するビジュアルフレームワークである。
VisualMimicは、シミュレーションで訓練されたビジュモータポリシーを実際のヒューマノイドロボットにゼロショットで転送することを可能にする。
- 参考スコア(独自算出の注目度): 39.01738745009172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker -- trained from human motion data via a teacher-student scheme -- with a task-specific high-level policy that generates keypoint commands from visual and proprioceptive input. To ensure stable training, we inject noise into the low-level policy and clip high-level actions using human motion statistics. VisualMimic enables zero-shot transfer of visuomotor policies trained in simulation to real humanoid robots, accomplishing a wide range of loco-manipulation tasks such as box lifting, pushing, football dribbling, and kicking. Beyond controlled laboratory settings, our policies also generalize robustly to outdoor environments. Videos are available at: https://visualmimic.github.io .
- Abstract(参考訳): 非構造環境におけるヒューマノイド・ロコ・マニピュレーションは、自我中心の知覚と全身制御の緊密な統合を要求する。
しかし、既存のアプローチは、外部のモーションキャプチャシステムに依存するか、あるいは様々なタスクにまたがる一般化に失敗する。
我々は,人間型ロボットの階層的な全身制御による自我中心の視覚を統一するビジュアルシミュレート・トゥ・リアル・フレームワークであるVisualMimicを紹介した。
VisualMimicは、タスクに依存しない低レベルのキーポイントトラッカー -- 教師と学生のスキームを通じて人間のモーションデータからトレーニングされた -- と、視覚的およびプロプリセプティブな入力からキーポイントコマンドを生成するタスク固有のハイレベルポリシーを組み合わせる。
安定したトレーニングを確保するため、我々は低レベルポリシーにノイズを注入し、人間の動き統計を用いてハイレベルなアクションをクリップする。
VisualMimicは、シミュレーションで訓練されたビジュモータポリシーを、本物のヒューマノイドロボットにゼロショットで転送し、ボックスリフト、プッシュ、フットボールのドリブル、キックなどの幅広いロコ操作タスクを達成する。
コントロールされた実験室の設定以外にも、当社のポリシーは屋外環境にもしっかりと一般化されている。
ビデオはhttps://visualmimic.github.io.comで公開されている。
関連論文リスト
- HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。
HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-23T08:23:14Z) - Feel the Force: Contact-Driven Learning from Humans [52.36160086934298]
操作中のきめ細かい力の制御は、ロボット工学における中核的な課題である。
We present FeelTheForce, a robot learning system that model human tactile behavior to learn force-sensitive control。
提案手法は,5つの力覚的操作タスクで77%の成功率を達成した,スケーラブルな人間の監督において,堅牢な低レベル力制御を実現する。
論文 参考訳(メタデータ) (2025-06-02T17:57:52Z) - MaskedManipulator: Versatile Whole-Body Manipulation [38.02818493367002]
本研究では,大規模な人体モーションキャプチャーデータに基づいて学習したトラッキングコントローラから生成制御ポリシーであるMaskedManipulatorを紹介する。
この2段階の学習プロセスにより、システムは複雑なインタラクション動作を実行でき、キャラクタとオブジェクトの両方の動作を直感的に制御できる。
論文 参考訳(メタデータ) (2025-05-25T10:46:14Z) - ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。
我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。
他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文 参考訳(メタデータ) (2025-03-31T09:27:00Z) - HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit [52.12750762494588]
本稿では,半自律遠隔操作システムHOMIEを紹介する。
ペダルにマッピングされた身体制御のための強化学習ポリシー、腕制御のための異形外骨格アーム、手操作のためのモーションセンシンググローブを組み合わせている。
このシステムは完全なオープンソースであり、デモとコードはhttps://homietele.org/.com/で見ることができる。
論文 参考訳(メタデータ) (2025-02-18T16:33:38Z) - Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots [13.229028132036321]
Masked Humanoid Controller (MHC)は、立位、歩行、体の一部の動きの模倣をサポートする。
MHCは、立ち上がり、歩行、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから、部分的にマスクされた動きを模倣する。
実世界のDigi V3ヒューマノイドロボット上でのシミュレート・トゥ・リアルトランスファーを実演する。
論文 参考訳(メタデータ) (2024-07-30T09:10:24Z) - Visual Whole-Body Control for Legged Loco-Manipulation [22.50054654508986]
そこで本研究では,ロボットアームを用いた移動操作の問題点について検討する。
視覚的観察により全身制御を自律的に行うことのできる枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:26:08Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。