論文の概要: ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation
- arxiv url: http://arxiv.org/abs/2412.18600v1
- Date: Tue, 24 Dec 2024 18:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:10.924016
- Title: ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation
- Title(参考訳): ZeroHSI:ビデオ生成によるゼロショット4次元ヒューマンシーンインタラクション
- Authors: Hongjie Li, Hong-Xing Yu, Jiaman Li, Jiajun Wu,
- Abstract要約: 我々は,映像生成とニューラルヒューマンレンダリングを統合することで,ゼロショット4次元人間とシーンのインタラクション合成を可能にする新しいアプローチであるZeroHSIを提案する。
我々の重要な洞察は、最先端のビデオ生成モデルで学んだリッチな動きの先行きを利用して、膨大な量の人間の動きと相互作用を訓練し、異なるレンダリングを使って人間とシーンのインタラクションを再構築することである。
室内および屋外の様々な場面の様々な種類の編集されたデータセットに対して,ZeroHSIの評価を行い,多種多様かつ文脈的に適切なヒューマン・シーンのインタラクションを生成できることを実証した。
- 参考スコア(独自算出の注目度): 17.438484695828276
- License:
- Abstract: Human-scene interaction (HSI) generation is crucial for applications in embodied AI, virtual reality, and robotics. While existing methods can synthesize realistic human motions in 3D scenes and generate plausible human-object interactions, they heavily rely on datasets containing paired 3D scene and motion capture data, which are expensive and time-consuming to collect across diverse environments and interactions. We present ZeroHSI, a novel approach that enables zero-shot 4D human-scene interaction synthesis by integrating video generation and neural human rendering. Our key insight is to leverage the rich motion priors learned by state-of-the-art video generation models, which have been trained on vast amounts of natural human movements and interactions, and use differentiable rendering to reconstruct human-scene interactions. ZeroHSI can synthesize realistic human motions in both static scenes and environments with dynamic objects, without requiring any ground-truth motion data. We evaluate ZeroHSI on a curated dataset of different types of various indoor and outdoor scenes with different interaction prompts, demonstrating its ability to generate diverse and contextually appropriate human-scene interactions.
- Abstract(参考訳): HSI(Human-scene Interaction)の生成は、具体化されたAI、仮想現実、ロボット工学の応用に不可欠である。
既存の方法では、3Dシーンでリアルな人間の動きを合成し、もっともらしい人間と物体の相互作用を生成することができるが、3Dシーンとモーションキャプチャーデータを組み合わせたデータセットに大きく依存している。
我々は,映像生成とニューラルヒューマンレンダリングを統合することで,ゼロショット4次元人間とシーンのインタラクション合成を可能にする新しいアプローチであるZeroHSIを提案する。
我々の重要な洞察は、最先端のビデオ生成モデルで学んだリッチな動きの先行きを利用して、膨大な量の人間の動きと相互作用を訓練し、異なるレンダリングを使って人間とシーンのインタラクションを再構築することである。
ZeroHSIは、静的シーンと環境の両方で現実的な人間の動きを動的オブジェクトで合成することができる。
室内および屋外の様々な場面の様々な種類の編集されたデータセットに対して,ZeroHSIの評価を行い,多種多様かつ文脈的に適切なヒューマン・シーンのインタラクションを生成できることを実証した。
関連論文リスト
- Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。