論文の概要: Jointly Understand Your Command and Intention:Reciprocal Co-Evolution between Scene-Aware 3D Human Motion Synthesis and Analysis
- arxiv url: http://arxiv.org/abs/2503.00371v1
- Date: Sat, 01 Mar 2025 06:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:15.738537
- Title: Jointly Understand Your Command and Intention:Reciprocal Co-Evolution between Scene-Aware 3D Human Motion Synthesis and Analysis
- Title(参考訳): 命令と意図を共同で理解する:シーン認識型3Dヒューマンモーション合成と解析の相互共進化
- Authors: Xuehao Gao, Yang Yang, Shaoyi Du, Guo-Jun Qi, Junwei Han,
- Abstract要約: シーン認識型テキスト対人間合成は、同じテキスト記述から多様な屋内動作サンプルを生成する。
そこで本研究では,テキスト駆動型シーン特異的なヒューマンモーション生成を3段階に分解するケースドジェネレーション戦略を提案する。
我々は3次元シーンにおけるリアルな人間の動き合成と頑健な人間の動き解析を共同で改善する。
- 参考スコア(独自算出の注目度): 80.50342609047091
- License:
- Abstract: As two intimate reciprocal tasks, scene-aware human motion synthesis and analysis require a joint understanding between multiple modalities, including 3D body motions, 3D scenes, and textual descriptions. In this paper, we integrate these two paired processes into a Co-Evolving Synthesis-Analysis (CESA) pipeline and mutually benefit their learning. Specifically, scene-aware text-to-human synthesis generates diverse indoor motion samples from the same textual description to enrich human-scene interaction intra-class diversity, thus significantly benefiting training a robust human motion analysis system. Reciprocally, human motion analysis would enforce semantic scrutiny on each synthesized motion sample to ensure its semantic consistency with the given textual description, thus improving realistic motion synthesis. Considering that real-world indoor human motions are goal-oriented and path-guided, we propose a cascaded generation strategy that factorizes text-driven scene-specific human motion generation into three stages: goal inferring, path planning, and pose synthesizing. Coupling CESA with this powerful cascaded motion synthesis model, we jointly improve realistic human motion synthesis and robust human motion analysis in 3D scenes.
- Abstract(参考訳): 2つの親密な相互作業として、シーン認識された人間のモーション合成と分析は、3Dの身体の動き、3Dのシーン、テキスト記述を含む複数のモード間の共同理解を必要とする。
本稿では,これら2つのプロセスを共進化合成分析(CESA)パイプラインに統合し,相互に学習に役立てる。
具体的には、シーン対応のテキスト・トゥ・ヒューマン・シンセサイザーは、同じテキスト記述から多様な屋内動作サンプルを生成し、ヒトとシーンの相互作用をクラス内多様性に富ませることで、堅牢な人体動作分析システムのトレーニングに大いに貢献する。
逆に、人間の動作分析は、与えられたテキスト記述とのセマンティックな整合性を確保するために、各合成された動きサンプルに意味的な精査を強制し、現実的な動き合成を改善する。
実世界の屋内での人間の動きは目標指向であり、経路誘導的であることを考慮し、テキスト駆動のシーン固有の人間の動きを生成するカスケード生成戦略を、ゴール推論、経路計画、ポーズ合成の3段階に分類する。
CESAとこの強力なケースドモーション合成モデルを組み合わせることで、3Dシーンにおけるリアルな人間のモーション合成と堅牢な人間のモーション分析を共同で改善する。
関連論文リスト
- AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Skeleton2Humanoid: Animating Simulated Characters for
Physically-plausible Motion In-betweening [59.88594294676711]
現代の深層学習に基づく運動合成アプローチは、合成された運動の物理的妥当性をほとんど考慮していない。
テスト時に物理指向の動作補正を行うシステムSkeleton2Humanoid'を提案する。
挑戦的なLaFAN1データセットの実験は、物理的妥当性と精度の両方の観点から、我々のシステムが先行手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-09T16:15:34Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。