論文の概要: How Much Do Large Language Models Know about Human Motion? A Case Study in 3D Avatar Control
- arxiv url: http://arxiv.org/abs/2505.21531v1
- Date: Fri, 23 May 2025 16:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.13045
- Title: How Much Do Large Language Models Know about Human Motion? A Case Study in 3D Avatar Control
- Title(参考訳): 大規模言語モデルは人間の動きについてどの程度知っているか : 3次元アバター制御の事例研究
- Authors: Kunhang Li, Jason Naradowsky, Yansong Feng, Yusuke Miyao,
- Abstract要約: 基本動作プリミティブとバランスの取れた身体部分の使用を網羅した20の代表的な動作指示を設計する。
LLMは高次身体運動の解釈に長けているが, 正確な身体部位の位置決めに苦慮している。
LLMは創造的な動きを概念化し、文化的に特有の動きのパターンを区別する。
- 参考スコア(独自算出の注目度): 34.22339602808691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore Large Language Models (LLMs)' human motion knowledge through 3D avatar control. Given a motion instruction, we prompt LLMs to first generate a high-level movement plan with consecutive steps (High-level Planning), then specify body part positions in each step (Low-level Planning), which we linearly interpolate into avatar animations as a clear verification lens for human evaluators. Through carefully designed 20 representative motion instructions with full coverage of basic movement primitives and balanced body part usage, we conduct comprehensive evaluations including human assessment of both generated animations and high-level movement plans, as well as automatic comparison with oracle positions in low-level planning. We find that LLMs are strong at interpreting the high-level body movements but struggle with precise body part positioning. While breaking down motion queries into atomic components improves planning performance, LLMs have difficulty with multi-step movements involving high-degree-of-freedom body parts. Furthermore, LLMs provide reasonable approximation for general spatial descriptions, but fail to handle precise spatial specifications in text, and the precise spatial-temporal parameters needed for avatar control. Notably, LLMs show promise in conceptualizing creative motions and distinguishing culturally-specific motion patterns.
- Abstract(参考訳): 本研究では,3次元アバター制御によるLarge Language Models (LLMs)の人間の動作知識を探索する。
動作指示が与えられた場合、LSMはまず連続的なステップ(高レベルプランニング)で高レベルな動作計画を生成し、次に各ステップの身体部分の位置を指定する(低レベルプランニング)。
基本動作プリミティブとバランスの取れた身体部分の使用量を網羅した20の代表的な動作指示を慎重に設計し,人為的評価,高レベル動作計画,低レベル計画におけるオラクル位置の自動比較などの総合的な評価を行う。
LLMは高次身体運動の解釈に長けているが, 正確な身体部位の位置決めに苦慮している。
動作クエリを原子部品に分割することで計画性能が向上する一方、LLMは高自由度体部品を含む多段運動には困難である。
さらに、LLMは一般的な空間記述に対して妥当な近似を提供するが、テキストの正確な空間仕様やアバター制御に必要な正確な空間時間パラメータを処理できない。
特に、LCMは創造的な動きを概念化し、文化的に固有の動きパターンを区別する約束を示す。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Human-Object Interaction from Human-Level Instructions [17.10279738828331]
本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。
我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。
従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。