論文の概要: Humanoid World Models: Open World Foundation Models for Humanoid Robotics
- arxiv url: http://arxiv.org/abs/2506.01182v2
- Date: Tue, 08 Jul 2025 20:18:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.289953
- Title: Humanoid World Models: Open World Foundation Models for Humanoid Robotics
- Title(参考訳): ヒューマノイド世界モデル:ヒューマノイドロボットのためのオープンワールドファンデーションモデル
- Authors: Muhammad Qasim Ali, Aditya Sridhar, Shahbuland Matiana, Alex Wong, Mohammad Al-Sharman,
- Abstract要約: 我々はHWM(Humanoid World Models)を紹介した。HWMは、HWM(Humanoid World Models)は、HWM(Humanoid World Models)の一種で、HWM(Humanoid World Models)と呼ばれる軽量でオープンソースのモデルである。
我々は,100時間のヒューマノイド実験において,Masked TransformersとFlow-Matchingの2種類の生成モデルを訓練した。
パラメータ共有技術は,性能や視力に最小限の影響を伴って,モデルサイズを33~53%削減する。
- 参考スコア(独自算出の注目度): 2.7781524868854715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid robots, with their human-like form, are uniquely suited for interacting in environments built for people. However, enabling humanoids to reason, plan, and act in complex open-world settings remains a challenge. World models, models that predict the future outcome of a given action, can support these capabilities by serving as a dynamics model in long-horizon planning and generating synthetic data for policy learning. We introduce Humanoid World Models (HWM), a family of lightweight, open-source models that forecast future egocentric video conditioned on humanoid control tokens. We train two types of generative models, Masked Transformers and Flow-Matching, on 100 hours of humanoid demonstrations. Additionally, we explore architectural variants with different attention mechanisms and parameter-sharing strategies. Our parameter-sharing techniques reduce model size by 33-53% with minimal impact on performance or visual fidelity. HWMs are designed to be trained and deployed in practical academic and small-lab settings, such as 1-2 GPUs.
- Abstract(参考訳): 人間のような形をしたヒューマノイドロボットは、人間のために作られた環境での対話に一意に適している。
しかし、ヒューマノイドが複雑なオープンワールド設定で推論、計画、行動できるようにすることは、依然として課題である。
与えられた行動の将来的な結果を予測する世界モデルは、長期計画におけるダイナミクスモデルとして機能し、政策学習のための合成データを生成することによって、これらの機能をサポートすることができる。
我々はHWM(Humanoid World Models)を紹介した。HWMは、HWM(Humanoid World Models)は、HWM(Humanoid World Models)の一種で、HWM(Humanoid World Models)と呼ばれる軽量でオープンソースのモデルである。
我々は,100時間のヒューマノイド実験において,Masked TransformersとFlow-Matchingの2種類の生成モデルを訓練した。
さらに、異なる注意機構とパラメータ共有戦略を持つアーキテクチャのバリエーションについても検討する。
パラメータ共有技術は,性能や視力に最小限の影響を伴って,モデルサイズを33~53%削減する。
HWMは1-2 GPUのような実践的な学術的および小規模の環境で訓練され、デプロイされるように設計されている。
関連論文リスト
- DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - A Personalized Data-Driven Generative Model of Human Motion [0.0]
本研究では,個人固有の特徴を捉えたオリジナル動作を生成するための,完全なデータ駆動型アプローチを提案する。
我々のモデルは、訓練した個体の速度分布と振幅エンベロープを効果的に再現し、他の個体と異なる。
論文 参考訳(メタデータ) (2025-03-19T14:03:20Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Fine-Tuning Generative Models as an Inference Method for Robotic Tasks [18.745665662647912]
ロボット作業における観察にニューラルネットワークモデルのサンプル生成を迅速に適応させる方法について検討する。
鍵となるアイデアは、観測された証拠と一致する生成サンプルにそれを適合させることで、モデルを素早く微調整することである。
本手法は自己回帰モデルと変分自己エンコーダの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-19T16:11:49Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Real-time Pose Estimation from Images for Multiple Humanoid Robots [45.182157261640675]
本稿では,ロボカップヒューマノイドリーグ環境におけるヒューマノイドロボットの動作をリアルタイムに行う軽量ポーズ推定モデルを提案する。
この研究の結果は、サッカーをするロボットに多くの高度な行動を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-07-06T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。