論文の概要: ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation
- arxiv url: http://arxiv.org/abs/2412.18600v2
- Date: Fri, 21 Mar 2025 16:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.886516
- Title: ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation
- Title(参考訳): ZeroHSI:ビデオ生成によるゼロショット4次元ヒューマンシーンインタラクション
- Authors: Hongjie Li, Hong-Xing Yu, Jiaman Li, Jiajun Wu,
- Abstract要約: 我々は,ゼロショット4次元人間とシーンの相互作用合成を可能にする新しいアプローチであるZeroHSIを提案する。
私たちの重要な洞察は、最先端のビデオ生成モデルから人間とシーンのインタラクションを抽出することです。
ZeroHSIは静的シーンと環境の両方でリアルな人間の動きを動的オブジェクトで合成することができる。
- 参考スコア(独自算出の注目度): 17.438484695828276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-scene interaction (HSI) generation is crucial for applications in embodied AI, virtual reality, and robotics. Yet, existing methods cannot synthesize interactions in unseen environments such as in-the-wild scenes or reconstructed scenes, as they rely on paired 3D scenes and captured human motion data for training, which are unavailable for unseen environments. We present ZeroHSI, a novel approach that enables zero-shot 4D human-scene interaction synthesis, eliminating the need for training on any MoCap data. Our key insight is to distill human-scene interactions from state-of-the-art video generation models, which have been trained on vast amounts of natural human movements and interactions, and use differentiable rendering to reconstruct human-scene interactions. ZeroHSI can synthesize realistic human motions in both static scenes and environments with dynamic objects, without requiring any ground-truth motion data. We evaluate ZeroHSI on a curated dataset of different types of various indoor and outdoor scenes with different interaction prompts, demonstrating its ability to generate diverse and contextually appropriate human-scene interactions.
- Abstract(参考訳): HSI(Human-scene Interaction)の生成は、具体化されたAI、仮想現実、ロボット工学の応用に不可欠である。
しかし、既存の手法では、ペア化された3Dシーンと、未知の環境では利用できない人間のモーションデータに頼っているため、未確認のシーンや再構成シーンなどの相互作用を合成することはできない。
我々は、ゼロショット4次元人間とシーンの相互作用合成を可能にする新しいアプローチであるZeroHSIを提案し、MoCapデータのトレーニングの必要性を排除した。
我々の重要な洞察は、大量の自然な人間の動きと相互作用を訓練してきた最先端のビデオ生成モデルから人間とシーンのインタラクションを抽出し、異なるレンダリングを使って人間とシーンのインタラクションを再構築することである。
ZeroHSIは、静的シーンと環境の両方で現実的な人間の動きを動的オブジェクトで合成することができる。
室内および屋外の様々な場面の異なる種類の異なる場面のキュレートされたデータセット上で、ZeroHSIを評価し、その多様かつ文脈的に適切なヒューマン・シーンのインタラクションを生成する能力を実証した。
関連論文リスト
- Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Interaction Replica: Tracking Human-Object Interaction and Scene Changes From Human Motion [48.982957332374866]
人間による変化をモデル化することは、デジタル双生児を作るのに不可欠である。
本手法は,シーン中の人間の視覚的位置決めとIMUデータからの人間とシーンの相互作用に関する接触に基づく推論を組み合わせたものである。
私たちのコード、データ、モデルは、プロジェクトのページ http://virtual humans.mpi-inf.mpg.de/ireplica/.comで公開されています。
論文 参考訳(メタデータ) (2022-05-05T17:58:06Z) - Stochastic Scene-Aware Motion Prediction [41.6104600038666]
本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動合成動作法を提案する。
SAMP (Scene Aware Motion Prediction) と呼ばれる本手法は, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるように一般化する。
論文 参考訳(メタデータ) (2021-08-18T17:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。