論文の概要: AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
- arxiv url: http://arxiv.org/abs/2410.07164v1
- Date: Wed, 9 Oct 2024 17:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:56:57.451942
- Title: AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
- Title(参考訳): アバターGO:ゼロショット4Dヒューマンオブジェクトインタラクション生成とアニメーション
- Authors: Yukang Cao, Liang Pan, Kai Han, Kwan-Yee K. Wong, Ziwei Liu,
- Abstract要約: AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
- 参考スコア(独自算出の注目度): 60.5897687447003
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model's lack of understanding of ''where'' and ''how'' objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ''where'' challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ''how'' challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO's superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.
- Abstract(参考訳): 近年の拡散モデルの発展により、4Dフルボディの人-物体相互作用(HOI)の生成とアニメーションが大幅に改善されている。
それにもかかわらず、既存の手法は主にSMPLベースのモーション生成に焦点を当てており、これは現実的な大規模インタラクションデータの不足によって制限されている。
この制約は、毎日のHOIシーンを作成する能力に影響を与える。
本稿では,事前学習した拡散モデルを用いたゼロショットアプローチを用いて,この問題に対処する。
このような可能性にもかかわらず、拡散モデルが「どこで」や「どのように」物体が人体と相互作用するかを理解していないため、目標を達成することは難しい。
これらの問題に対処するために,テキスト入力から直接アニマタブルな4D HOIシーンを生成するために設計された新しいフレームワークであるAvatarGOを紹介した。
具体的には
本研究では,Lang-SAMを用いてテキストプロンプトから接触体部分を識別し,人間と対象の空間関係を正確に表現するLLM誘導接触再ターゲティングを提案する。
2)「ハウ」課題では,SMPL-Xからの線形ブレンドスキン機能を用いて,人間と物体モデルの両方の運動場を構築する対応型運動最適化を導入する。
本フレームワークは,コヒーレントな構成運動を発生させるだけでなく,浸透問題に対処する際の堅牢性も向上する。
既存の手法による大規模な実験は、AvatarGOの優れた生成能力とアニメーション能力を様々な人間とオブジェクトのペアと多様なポーズで検証する。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
関連論文リスト
- Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Physics-based Motion Retargeting from Sparse Inputs [73.94570049637717]
商用AR/VR製品はヘッドセットとコントローラーのみで構成されており、ユーザーのポーズのセンサーデータは非常に限られている。
本研究では, 多様な形態のキャラクタに対して, 粗い人間のセンサデータからリアルタイムに動きをターゲットする手法を提案する。
アバターのポーズは、下半身のセンサー情報がないにもかかわらず、驚くほどよくユーザと一致していることを示す。
論文 参考訳(メタデータ) (2023-07-04T21:57:05Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Physically Plausible Animation of Human Upper Body from a Single Image [41.027391105867345]
制御可能で動的に応答し,フォトリアリスティックな人間のアニメーションを生成する新しい方法を提案する。
本システムでは,画像空間におけるインタラクションを用いて,物理的に可視な上半身アニメーション(PUBA)を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T09:36:59Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。