論文の概要: Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs
- arxiv url: http://arxiv.org/abs/2502.05641v1
- Date: Sat, 08 Feb 2025 17:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:13.838048
- Title: Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs
- Title(参考訳): 多モード入力による物理的現実的・指向的人間の動作の生成
- Authors: Aayam Shrestha, Pan Liu, German Ros, Kai Yuan, Alan Fern,
- Abstract要約: この研究は、望まれる動きを部分的にしか特定できないマルチモーダル入力から現実的で物理的に人間の行動を生成することに焦点を当てている。
入力は、腕の動きと身体の速度、部分的なキーポイントアニメーション、ビデオに適用されたコンピュータビジョン、さらにはより高いレベルの運動目標を提供するVRコントローラから得られる。
Masked Humanoid Controller (MHC) は,多目的模倣学習を多目的マスク型動作実証に適用する新しい手法である。
- 参考スコア(独自算出の注目度): 16.41735119504929
- License:
- Abstract: This work focuses on generating realistic, physically-based human behaviors from multi-modal inputs, which may only partially specify the desired motion. For example, the input may come from a VR controller providing arm motion and body velocity, partial key-point animation, computer vision applied to videos, or even higher-level motion goals. This requires a versatile low-level humanoid controller that can handle such sparse, under-specified guidance, seamlessly switch between skills, and recover from failures. Current approaches for learning humanoid controllers from demonstration data capture some of these characteristics, but none achieve them all. To this end, we introduce the Masked Humanoid Controller (MHC), a novel approach that applies multi-objective imitation learning on augmented and selectively masked motion demonstrations. The training methodology results in an MHC that exhibits the key capabilities of catch-up to out-of-sync input commands, combining elements from multiple motion sequences, and completing unspecified parts of motions from sparse multimodal input. We demonstrate these key capabilities for an MHC learned over a dataset of 87 diverse skills and showcase different multi-modal use cases, including integration with planning frameworks to highlight MHC's ability to solve new user-defined tasks without any finetuning.
- Abstract(参考訳): この研究は、望まれる動きを部分的にしか特定できないマルチモーダル入力から現実的で物理的に人間の行動を生成することに焦点を当てている。
例えば、入力は、腕の動きと身体の速度、部分的なキーポイントアニメーション、ビデオに適用されたコンピュータビジョン、さらにはより高いレベルの運動目標を提供するVRコントローラから得られる。
これは多用途の低レベルのヒューマノイドコントローラで、疎結合で具体的でないガイダンスを処理し、スキルをシームレスに切り替え、失敗から回復することができる。
デモデータからヒューマノイドコントローラを学習するための現在のアプローチは、これらの特徴の一部をキャプチャするが、全てを達成することはできない。
この目的のために,多目的模倣学習を多目的マスク型動作実証に適用する新しいアプローチであるMasked Humanoid Controller (MHC)を導入する。
トレーニング手法は,複数の動作シーケンスから要素を合成し,スパースマルチモーダル入力から動作の未特定部分を完了し,非同期入力コマンドにキャッチアップする重要な機能を示すMHCを生成する。
87の多様なスキルのデータセットから学んだMHCにとって、これらの重要な能力を実証するとともに、プランニングフレームワークとの統合など、さまざまなマルチモーダルなユースケースを示します。
関連論文リスト
- Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots [13.229028132036321]
Masked Humanoid Controller (MHC)は、立位、歩行、体の一部の動きの模倣をサポートする。
MHCは、立ち上がり、歩行、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから、部分的にマスクされた動きを模倣する。
実世界のDigi V3ヒューマノイドロボット上でのシミュレート・トゥ・リアルトランスファーを実演する。
論文 参考訳(メタデータ) (2024-07-30T09:10:24Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Taming Diffusion Probabilistic Models for Character Control [46.52584236101806]
本稿では,様々なユーザからの制御信号にリアルタイムで応答する新しい文字制御フレームワークを提案する。
本手法の核心は変圧器を用いた条件付き自己回帰運動拡散モデルである。
我々の研究は、高品質で多様なキャラクターアニメーションをリアルタイムに生成できる最初のモデルである。
論文 参考訳(メタデータ) (2024-04-23T15:20:17Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。