論文の概要: Encoder-Free Human Motion Understanding via Structured Motion Descriptions
- arxiv url: http://arxiv.org/abs/2604.21668v1
- Date: Thu, 23 Apr 2026 13:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.560843
- Title: Encoder-Free Human Motion Understanding via Structured Motion Descriptions
- Title(参考訳): 構造化動作記述によるエンコーダフリー人間の動作理解
- Authors: Yao Zhang, Zhuchenyang Liu, Thomas Ploetz, Yu Xiao,
- Abstract要約: 構造運動記述(Structured Motion Description)は、関節の位置列を、関節角度、身体部分運動、大域軌跡の構造化された自然言語記述に変換する。
提案手法は, 動作質問応答と動作キャプションの両方において, 最先端の結果に留まらないことを示す。
- 参考スコア(独自算出の注目度): 8.885823987307132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose \textbf{Structured Motion Description (SMD)}, a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.
- Abstract(参考訳): テキストベースの大規模言語モデル(LLM)の世界知識と推論能力は急速に進歩しているが、人間の動作理解への現在のアプローチは、動作質問応答やキャプションなど、これらの能力を十分に活用していない。
既存のLLMベースの手法は、通常、移動特徴をLLMの埋め込み空間に投影する専用エンコーダを通して動き言語アライメントを学習するが、それはクロスモーダルな表現とアライメントによって制約される。
関節角度と体の一部の運動が人間の運動の正確な記述言語として長く使われてきた生体力学的解析に着想を得て,関節位置列を関節角度,身体部分運動,大域軌跡の構造化自然言語記述に変換する規則に基づく決定論的アプローチである「textbf{Structured Motion Description (SMD)」を提案する。
動きをテキストとして表現することにより、SMDは学習したエンコーダやアライメントモジュールを必要とせずに、身体部分、空間方向、運動意味論の事前訓練された知識を直接動作推論に適用することができる。
BABEL-QAでは66.7\%、Humman-QAでは90.1\%、HumanML3Dでは0.584のR@1、CIDErでは53.16のHumanML3Dを上回っている。
SMDはまた、同じテキスト入力が軽量なLoRA適応(モデルファミリの8 LLMにバリデーションされた)で異なるLLM間で動作し、その人間可読表現は動作記述に対する注意分析を可能にする。
コード、データ、事前訓練済みのLoRAアダプタはhttps://yaozhang182.github.io/motion-smd/で入手できる。
関連論文リスト
- Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation [55.743701532984126]
我々はTrajSegを提案する。TrajSegはマルチモーダル大規模言語モデル上に構築されたシンプルで統一されたフレームワークである。
本研究では,MLLMが接頭辞(テキスト・トゥ・トラジェクティブ)と接頭辞(テキスト・トゥ・テキスト)の指示を受理する双方向テキスト・トラジェクティブアライメントを提案する。
このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
論文 参考訳(メタデータ) (2026-03-23T02:25:51Z) - GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models [23.159388800893964]
両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。
我々は、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。
我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-01-12T15:14:29Z) - How Much Do Large Language Models Know about Human Motion? A Case Study in 3D Avatar Control [26.945224697437833]
本研究では,3次元アバター制御によるLarge Language Models(LLMs)の人間の動作知識を探索する。
以上の結果から,LSMは高次身体運動の解釈に長けているが,正確な身体部位の位置決めに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T16:01:08Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。