Fugu-MT 論文翻訳(概要): Visual Imitation Enables Contextual Humanoid Control

論文の概要: Visual Imitation Enables Contextual Humanoid Control

arxiv url: http://arxiv.org/abs/2505.03729v2
Date: Wed, 07 May 2025 05:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 12:54:13.662539
Title: Visual Imitation Enables Contextual Humanoid Control
Title（参考訳）: コンテキストヒューマノイド制御を可能にする視覚的模倣
Authors: Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa,
Abstract要約: VIDEOMIMICは、日常の映像をマイニングし、人間と環境を共同で再構築する、リアルからシミュレート・トゥ・リアルなパイプラインである。実際のヒューマノイドロボットにおけるパイプラインの結果を実証する。
参考スコア（独自算出の注目度）: 117.21896531190343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can we teach humanoids to climb staircases and sit on chairs using the surrounding environment context? Arguably, the simplest way is to just show them-casually capture a human motion video and feed it to humanoids. We introduce VIDEOMIMIC, a real-to-sim-to-real pipeline that mines everyday videos, jointly reconstructs the humans and the environment, and produces whole-body control policies for humanoid robots that perform the corresponding skills. We demonstrate the results of our pipeline on real humanoid robots, showing robust, repeatable contextual control such as staircase ascents and descents, sitting and standing from chairs and benches, as well as other dynamic whole-body skills-all from a single policy, conditioned on the environment and global root commands. VIDEOMIMIC offers a scalable path towards teaching humanoids to operate in diverse real-world environments.
Abstract（参考訳）: 周囲の環境を利用して階段を上って椅子に座るようにヒューマノイドに教えるにはどうすればいいのか? もっとも簡単な方法は、人間のモーションビデオを撮影して、それをヒューマノイドに供給することだ。 VIDEOMIMICは、日常の映像をマイニングし、人間と環境を共同で再構築し、対応するスキルを遂行するヒューマノイドロボットの全身制御ポリシーを作成する。実際のヒューマノイドロボットにおけるパイプラインの結果を実演し、階段の昇降や降下、椅子やベンチからの着座と立位、環境やグローバルなルートコマンドを条件とした1つのポリシーによる身体全体のダイナミックなスキルなど、頑健で反復的な文脈制御を示す。 VIDEOMIMICは、さまざまな現実世界環境でヒューマノイドを教えるためのスケーラブルなパスを提供する。

関連論文リスト

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文参考訳（メタデータ） (2026-02-26T16:53:41Z)
From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか? この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文参考訳（メタデータ） (2025-12-04T18:56:03Z)
VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation [39.01738745009172]
VisualMimicは、ヒューマノイドロボットのための階層的な全身制御で自我中心のビジョンを統一するビジュアルフレームワークである。 VisualMimicは、シミュレーションで訓練されたビジュモータポリシーを実際のヒューマノイドロボットにゼロショットで転送することを可能にする。
論文参考訳（メタデータ） (2025-09-24T17:10:02Z)
EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。 EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:17Z)
Learning from Massive Human Videos for Universal Humanoid Pose Control [46.417054298537195]
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
論文参考訳（メタデータ） (2024-12-18T18:59:56Z)
HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文参考訳（メタデータ） (2024-06-15T00:41:34Z)
Expressive Whole-Body Control for Humanoid Robots [20.132927075816742]
我々は、人間の動きをできるだけリアルに模倣するために、人間サイズのロボットで全身制御ポリシーを学習する。シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。
論文参考訳（メタデータ） (2024-02-26T18:09:24Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文参考訳（メタデータ） (2023-04-17T17:59:34Z)
Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文参考訳（メタデータ） (2023-03-06T18:59:09Z)
HERD: Continuous Human-to-Robot Evolution for Learning from Human Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-08T15:56:13Z)
Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文参考訳（メタデータ） (2020-03-20T16:13:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。