論文の概要: Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance
- arxiv url: http://arxiv.org/abs/2403.18036v1
- Date: Tue, 26 Mar 2024 18:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:14:58.263504
- Title: Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance
- Title(参考訳): あなたが言うように、できる限り干渉する:シーンのアクシデンスを伴う言語誘導型ヒューマンモーションジェネレーション
- Authors: Zan Wang, Yixin Chen, Baoxiong Jia, Puhao Li, Jinlu Zhang, Jingze Zhang, Tengyu Liu, Yixin Zhu, Wei Liang, Siyuan Huang,
- Abstract要約: 本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 48.986552871497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in text-to-motion synthesis, generating language-guided human motion within 3D environments poses substantial challenges. These challenges stem primarily from (i) the absence of powerful generative models capable of jointly modeling natural language, 3D scenes, and human motion, and (ii) the generative models' intensive data requirements contrasted with the scarcity of comprehensive, high-quality, language-scene-motion datasets. To tackle these issues, we introduce a novel two-stage framework that employs scene affordance as an intermediate representation, effectively linking 3D scene grounding and conditional motion generation. Our framework comprises an Affordance Diffusion Model (ADM) for predicting explicit affordance map and an Affordance-to-Motion Diffusion Model (AMDM) for generating plausible human motions. By leveraging scene affordance maps, our method overcomes the difficulty in generating human motion under multimodal condition signals, especially when training with limited data lacking extensive language-scene-motion pairs. Our extensive experiments demonstrate that our approach consistently outperforms all baselines on established benchmarks, including HumanML3D and HUMANISE. Additionally, we validate our model's exceptional generalization capabilities on a specially curated evaluation set featuring previously unseen descriptions and scenes.
- Abstract(参考訳): テキスト・ツー・モーション・シンセサイザーの大幅な進歩にもかかわらず、3D環境内で言語誘導された人間の動きを生成することは重大な課題である。
これらの課題は主に
一 自然言語・3Dシーン・人間の動作を共同でモデル化できる強力な生成モデルがないこと。
(II) 生成モデルの集中的データ要求は, 包括的, 高品質, 言語シーン・モーション・データセットの不足と対比した。
これらの課題に対処するために、シーンアベイランスを中間表現として活用し、3Dシーングラウンドと条件付きモーション生成を効果的にリンクする新しい2段階フレームワークを提案する。
我々のフレームワークは、明示的な空白マップを予測するためのAffordance Diffusion Model(ADM)と、可塑性な人間の動きを生成するためのAffordance-to-Motion Diffusion Model(AMDM)から構成される。
ランドスケープ・アベイランス・マップの活用により,多モーダル・コンディション・シグナル下での人体動作生成の困難さを克服し,特に言語・シーン・モーション・ペアを欠いた限られたデータを用いたトレーニングを行う。
我々の大規模な実験は、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回っていることを示している。
さらに,前例のない記述やシーンを特徴とする特別にキュレートされた評価セットに対して,モデルが持つ異常な一般化能力を検証する。
関連論文リスト
- Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment [27.38638713080283]
我々は,Scene-Text-to-Motion研究に革命をもたらすために設計された,先駆的なデータセットであるLaserHumanを紹介する。
LaserHumanは、本物の人間の動きを3D環境に含めることで際立っている。
本稿では,既存のデータセット上での最先端性能を実現するための多条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-20T05:11:10Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。