論文の概要: PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System
- arxiv url: http://arxiv.org/abs/2510.11072v1
- Date: Mon, 13 Oct 2025 07:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.236971
- Title: PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System
- Title(参考訳): PhysHSI: 現実の汎用と自然のヒューマノイド・シーンインタラクションシステムを目指して
- Authors: Huayi Wang, Wentao Zhang, Runyi Yu, Tao Huang, Junli Ren, Feiyu Jia, Zirui Wang, Xiaojie Niu, Xiao Chen, Jiahe Chen, Qifeng Chen, Jingbo Wang, Jiangmiao Pang,
- Abstract要約: PhysHSIはシミュレーショントレーニングパイプラインと現実世界のデプロイメントシステムで構成される。
シミュレーションでは,自然のヒューマノイドとシーンの相互作用データを模倣するために,逆運動に基づくポリシー学習を採用する。
実世界の展開には、LiDARとカメラ入力を組み合わせた粗粒度オブジェクトローカライズモジュールを導入する。
- 参考スコア(独自算出の注目度): 67.2851799763138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying humanoid robots to interact with real-world environments--such as carrying objects or sitting on chairs--requires generalizable, lifelike motions and robust scene perception. Although prior approaches have advanced each capability individually, combining them in a unified system is still an ongoing challenge. In this work, we present a physical-world humanoid-scene interaction system, PhysHSI, that enables humanoids to autonomously perform diverse interaction tasks while maintaining natural and lifelike behaviors. PhysHSI comprises a simulation training pipeline and a real-world deployment system. In simulation, we adopt adversarial motion prior-based policy learning to imitate natural humanoid-scene interaction data across diverse scenarios, achieving both generalization and lifelike behaviors. For real-world deployment, we introduce a coarse-to-fine object localization module that combines LiDAR and camera inputs to provide continuous and robust scene perception. We validate PhysHSI on four representative interactive tasks--box carrying, sitting, lying, and standing up--in both simulation and real-world settings, demonstrating consistently high success rates, strong generalization across diverse task goals, and natural motion patterns.
- Abstract(参考訳): 物体を運び、椅子に座るなど、現実の環境と対話するためにヒューマノイドロボットを配置する。
従来のアプローチは各機能を個別に進化させてきたが、それらを統一システムに統合することは現在も進行中の課題である。
本研究では,自然と生活のような振る舞いを保ちながら,ヒューマノイドが自律的に多様なインタラクションタスクを実行できる物理世界型ヒューマノイド・シーンインタラクションシステムPhysHSIを提案する。
PhysHSIはシミュレーショントレーニングパイプラインと現実世界のデプロイメントシステムで構成される。
シミュレーションでは,多様なシナリオにまたがる自然なヒューマノイドとシーンのインタラクションデータを模倣するために,逆運動に基づく政策学習を採用し,一般化と生活習慣の両立を実現している。
実世界の展開には、LiDARとカメラ入力を組み合わせて連続的で堅牢なシーン認識を提供する粗いオブジェクトローカライゼーションモジュールを導入する。
我々はPhysHSIを4つの代表的対話的タスク – 箱詰め、着座、嘘、立ち上がり、シミュレーションと実世界の設定 – で検証し、一貫して高い成功率、多様なタスク目標に対する強力な一般化、自然な動きパターンを示す。
関連論文リスト
- WoW: Towards a World omniscient World model Through Embodied Interaction [83.43543124512719]
世界モデルの正当性的な物理的直観は、現実世界との広範囲で因果的に豊かな相互作用に基礎を置いていなければならない。
このWoWは、200万のロボットインタラクショントラジェクトリに基づいてトレーニングされた、ジェネレーティブな世界モデルである。
WoWBenchは、ビデオの物理的一貫性と因果推論に焦点を当てた新しいベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T17:59:07Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills [46.16771391136412]
ASAPは、動的ミスマッチに対処し、アジャイルなヒューマノイド全体のスキルを実現するために設計された2段階のフレームワークである。
第1段階では、リターゲットされた人間の動きデータを用いたシミュレーションにおいて、運動追跡ポリシーを事前訓練する。
第2段階では、現実の世界でポリシーをデプロイし、現実のデータを収集し、デルタ(残留)アクションモデルをトレーニングします。
論文 参考訳(メタデータ) (2025-02-03T08:22:46Z) - Human-Object Interaction from Human-Level Instructions [17.10279738828331]
本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。
我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。
従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。