論文の概要: HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement
- arxiv url: http://arxiv.org/abs/2508.16943v1
- Date: Sat, 23 Aug 2025 08:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.267509
- Title: HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement
- Title(参考訳): HumanoidVerse:視覚言語ガイドによる多目的再構成のための多機能ヒューマノイド
- Authors: Haozhuo Zhang, Jingkai Sun, Michele Caprio, Jian Tang, Shanghang Zhang, Qiang Zhang, Wei Pan,
- Abstract要約: 視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。
HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
- 参考スコア(独自算出の注目度): 51.16740261131198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HumanoidVerse, a novel framework for vision-language guided humanoid control that enables a single physically simulated robot to perform long-horizon, multi-object rearrangement tasks across diverse scenes. Unlike prior methods that operate in fixed settings with single-object interactions, our approach supports consecutive manipulation of multiple objects, guided only by natural language instructions and egocentric camera RGB observations. HumanoidVerse is trained via a multi-stage curriculum using a dual-teacher distillation pipeline, enabling fluid transitions between sub-tasks without requiring environment resets. To support this, we construct a large-scale dataset comprising 350 multi-object tasks spanning four room layouts. Extensive experiments in the Isaac Gym simulator demonstrate that our method significantly outperforms prior state-of-the-art in both task success rate and spatial precision, and generalizes well to unseen environments and instructions. Our work represents a key step toward robust, general-purpose humanoid agents capable of executing complex, sequential tasks under real-world sensory constraints. The video visualization results can be found on the project page: https://haozhuo-zhang.github.io/HumanoidVerse-project-page/.
- Abstract(参考訳): 我々は,視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介した。
単一物体の相互作用を伴う固定設定で動作する従来の手法とは異なり、本手法は自然言語命令と自我中心カメラRGB観測のみで誘導される複数の物体の連続的な操作をサポートする。
HumanoidVerseは、環境リセットを必要とせずにサブタスク間の流動的な遷移を可能にするデュアルティーラー蒸留パイプラインを使用して、多段階のカリキュラムを通じて訓練されている。
これを支援するために、4つの部屋配置にまたがる350の多目的タスクからなる大規模データセットを構築した。
アイザック・ギムシミュレーターにおける大規模な実験により,タスク成功率と空間精度の両方において,我々の手法が先行技術よりも著しく優れており,目に見えない環境や指示によく当てはまることを示した。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
ビデオビジュアライゼーションの結果は、プロジェクトのページ(https://haozhuo-zhang.github.io/HumanoidVerse-project-page/)で見ることができる。
関連論文リスト
- Is an object-centric representation beneficial for robotic manipulation ? [45.75998994869714]
オブジェクト中心表現(OCR)は近年,画像やビデオの構造的表現の学習において,コンピュータビジョンコミュニティにおける関心の対象となっている。
複数の一般化シナリオにまたがって1つの古典的対象中心法を評価し、その結果をいくつかの最先端のホリスティック表現と比較する。
以上の結果から,既存の手法は複雑なシーン構造を含む難解なシナリオでは失敗しがちであるが,オブジェクト指向手法はこれらの課題を克服するのに役立つことがわかった。
論文 参考訳(メタデータ) (2025-06-24T08:23:55Z) - You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations [38.835807227433335]
双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。
両眼でのみ観察できるヨト(YOTO)を提案する。
YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-24T03:26:41Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。