論文の概要: Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors
- arxiv url: http://arxiv.org/abs/2605.22272v2
- Date: Fri, 22 May 2026 04:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.777109
- Title: Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors
- Title(参考訳): imagine2Real: ビデオ生成プリミティブによるゼロショットヒューマノイドオブジェクトインタラクションを目指して
- Authors: Jiahe Chen, ZiRui Wang, Feiyu Jia, Xiao Chen, Xiaojie Niu, Weishuai Zeng, Tianfan Xue, Xiaowei Zhou, Jiangmiao Pang, Jingbo Wang,
- Abstract要約: 高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
- 参考スコア(独自算出の注目度): 51.096845970243855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-body Humanoid-Object Interaction (HOI) is bottlenecked by the scarcity of high-fidelity 3D data. While video generative priors offer a promising alternative, existing methods suffer from \textit{Representation Misalignment} due to their reliance on geometric priors (e.g., explicit CAD models), and \textit{Retargeting Complexity} arising from intensive morphing and morphological mismatch. We propose Imagine2Real, a zero-shot HOI framework for flexible, geometry-free interaction. To resolve misalignment, we formulate robot and object motions as unified 4D point trajectories. To overcome retargeting complexity, our Keypoints Tracker tracks only sparse critical points (base, hands, and object), entirely bypassing the error-amplifying retargeting process. To maintain natural gaits despite these sparse signals, we utilize the latent space of a Behavior Foundation Model (BFM) as the tracker's search domain. Using a progressive training strategy, Imagine2Real learns robust behaviors with simple tracking rewards, enabling zero-shot physical deployment within a motion capture(mocap) system.
- Abstract(参考訳): 高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
ビデオ生成の先行は有望な代替手段を提供するが、既存の手法は、幾何学的先行(例えば、明示的なCADモデル)と、集中的なモルヒネや形態的ミスマッチから生じる‘textit{Retargeting Complexity’に依存するため、 'textit{Representation Misalignment' に苦しむ。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
誤認識を解決するため,ロボットと物体の動きを統合された4次元点軌道として定式化する。
再ターゲティングの複雑さを克服するために、Keypoints Trackerは、エラーを増幅する再ターゲティングプロセスを完全にバイパスする、わずかなクリティカルポイント(ベース、ハンド、オブジェクト)のみをトラックします。
これらの疎い信号にもかかわらず、自然視線を維持するために、トラッカーの探索領域として振舞い基礎モデル(BFM)の潜在空間を利用する。
プログレッシブトレーニング戦略を使用して、Imagine2Realは単純なトラッキング報酬で堅牢な動作を学び、モーションキャプチャ(mocap)システム内でゼロショットの物理的なデプロイメントを可能にする。
関連論文リスト
- RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - Street Gaussians without 3D Object Tracker [84.89933388445185]
既存のほとんどの方法は、オブジェクトポーズの労働集約的な手動ラベリングに依存している。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z) - Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera [40.817960406002506]
本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
論文 参考訳(メタデータ) (2023-03-29T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。