論文の概要: SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.14120v1
- Date: Mon, 18 Aug 2025 15:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.204876
- Title: SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning
- Title(参考訳): SimGenhoi: 生成モデルと強化学習による物理的に現実的な全体型ヒューマノイドオブジェクトインタラクション
- Authors: Yuhang Lin, Yijia Xie, Jiahong Xie, Yuehao Huang, Ruoyu Wang, Jiajun Lv, Yukai Ma, Xingxing Zuo,
- Abstract要約: SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
- 参考スコア(独自算出の注目度): 6.255814224573073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating physically realistic humanoid-object interactions (HOI) is a fundamental challenge in robotics. Existing HOI generation approaches, such as diffusion-based models, often suffer from artifacts such as implausible contacts, penetrations, and unrealistic whole-body actions, which hinder successful execution in physical environments. To address these challenges, we introduce SimGenHOI, a unified framework that combines the strengths of generative modeling and reinforcement learning to produce controllable and physically plausible HOI. Our HOI generative model, based on Diffusion Transformers (DiT), predicts a set of key actions conditioned on text prompts, object geometry, sparse object waypoints, and the initial humanoid pose. These key actions capture essential interaction dynamics and are interpolated into smooth motion trajectories, naturally supporting long-horizon generation. To ensure physical realism, we design a contact-aware whole-body control policy trained with reinforcement learning, which tracks the generated motions while correcting artifacts such as penetration and foot sliding. Furthermore, we introduce a mutual fine-tuning strategy, where the generative model and the control policy iteratively refine each other, improving both motion realism and tracking robustness. Extensive experiments demonstrate that SimGenHOI generates realistic, diverse, and physically plausible humanoid-object interactions, achieving significantly higher tracking success rates in simulation and enabling long-horizon manipulation tasks. Code will be released upon acceptance on our project page: https://xingxingzuo.github.io/simgen_hoi.
- Abstract(参考訳): 物理的に現実的なヒューマノイドオブジェクト相互作用(HOI)の生成は、ロボット工学における根本的な課題である。
拡散モデルのような既存のHOI生成アプローチは、しばしば不確実な接触、侵入、非現実的な全身行動などの人工物に悩まされ、物理的環境における実行を妨げている。
これらの課題に対処するために,生成モデルと強化学習の強みを組み合わせた統合フレームワークであるSimGenHOIを導入し,制御可能で物理的に妥当なHOIを創出する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
これらの重要な作用は、重要な相互作用のダイナミクスを捉え、滑らかな運動軌道に補間される。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
さらに、我々は、生成モデルと制御ポリシーを反復的に洗練し、動きリアリズムを改善し、ロバスト性を追跡する相互微調整戦略を導入する。
広汎な実験により、SimGenHOIは現実的で多様性があり、物理的にプラウジブルなヒューマノイドオブジェクトの相互作用を発生させ、シミュレーションにおける追尾の成功率を大幅に向上させ、長時間の操作タスクを可能にした。
コードはプロジェクトのページで受け入れられる。 https://xingxingzuo.github.io/simgen_hoi。
関連論文リスト
- Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation [35.563978243352764]
人間のインタラクション生成パイプライン全体に統合された物理マッピングを導入する。
具体的には、物理に基づくシミュレーション環境での運動模倣は、ターゲットの動きを物理的に有効な空間に投影するために使用される。
実験の結果,人間の運動の質は3%~89%向上した。
論文 参考訳(メタデータ) (2025-06-09T06:04:49Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。
我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。
提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文 参考訳(メタデータ) (2024-11-27T10:13:35Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - Haptic Repurposing with GenAI [5.424247121310253]
Mixed Realityは、デジタル世界と物理的な世界を融合して、没入型人間とコンピュータのインタラクションを作ることを目指している。
本稿では,Haptic Repurposing with GenAIを紹介し,任意の物理オブジェクトをAI生成仮想アセットの適応型触覚インターフェースに変換することによってMRインタラクションを強化する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:06:28Z) - I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning [8.97654258232601]
有界残留強化学習(I-CTRL)によるヒューマノイドロボットの制御フレームワークの開発
I-CTRLは5つのロボットにまたがるシンプルでユニークな報酬で、動きの模倣に優れています。
本フレームワークでは,大規模動作データセットを管理するための自動優先度スケジューラを導入している。
論文 参考訳(メタデータ) (2024-05-14T16:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。