論文の概要: MotionMERGE: A Multi-granular Framework for Human Motion Editing, Reasoning, Generation, and Explanation
- arxiv url: http://arxiv.org/abs/2605.18956v1
- Date: Mon, 18 May 2026 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.89634
- Title: MotionMERGE: A Multi-granular Framework for Human Motion Editing, Reasoning, Generation, and Explanation
- Title(参考訳): MotionMERGE: 人間の動作編集、推論、生成、説明のための多言語フレームワーク
- Authors: Bizhu Wu, Jinheng Xie, Wenting Chen, Zhe Kong, Jianfeng Ren, Linlin Shen, Ruibin Bai, Rong Qu,
- Abstract要約: MotionMERGEは、モーション言語モデルの粒度のギャップを埋める統合フレームワークである。
まず,詳細な理解と局所的な編集を含む,粒度の細かい言語誘導型モーションコントロールの研究の先駆者となる。
第2に,粒度調整を共同で行う新しい戦略である粒度事前学習を意識したReasoningAware Granularity-Synergyを設計する。
第3に、第1の微細時間補正命令とモーショングラウンドCoTアノテーションを備えた大規模データセットであるMotionFineEditをキュレートする。
- 参考スコア(独自算出の注目度): 66.66098171359995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent motion-language models unify tasks like comprehension and generation but operate at a coarse granularity, lacking fine-grained understanding and nuanced control over body parts needed for animation or interaction. This stems from fundamental issues in both the model and the data, in which the model can't focus on motion's localized pattern, and the training data lacks fine-grained supervision. To tackle this, we propose MotionMERGE, a unified framework that bridges the granularity gap. First, we pioneer the study of fine-grained languageguided motion control, including detailed understanding and localized editing, by explicitly modeling motion at part and temporal levels within a single LLM, thereby endowing the model with robust priors for precise control. Second, we design ReasoningAware Granularity-Synergy pre-training, a novel strategy that employs joint supervision for cross-granularity alignment, temporal grounding, localized alignment, motion coherency, and motion-grounded chain-of-thought (CoT) reasoning. This equips the model with fine-grained motion-language alignment, crossgranularity synergy, and explicit reasoning ability. Third, we curate MotionFineEdit, a large-scale dataset (837K atomic + 144K complex triplets) with the first fine-grained spatio-temporal corrective instructions and motion-grounded CoT annotations, establishing a new benchmark for fine-grained text-driven motion editing and motion-grounded reasoning. Extensive experiments demonstrate the capability of MotionMERGE for more precise motion generation, understanding, and editing, and compelling zero-shot generalization to other complex motion tasks. This work represents a significant step toward models that interact with motion in finer granularity and human-like reasoning.
- Abstract(参考訳): 最近のモーション言語モデルは、理解や生成のようなタスクを統一するが、粗い粒度で操作する。
これは、モデルとデータの両方において、モデルがモーションのローカライズされたパターンに集中できず、トレーニングデータがきめ細かい監督を欠いているという根本的な問題に起因しています。
そこで我々は,粒度ギャップを埋める統一フレームワークであるMotionMERGEを提案する。
まず,1つのLDM内における動きと時間レベルを明示的にモデル化することにより,詳細な理解と局所的な編集を含む粒度の細かい言語誘導型動作制御の研究を開拓し,より正確な制御を行うための頑健な先行モデルを与える。
第2にReasoning Aware Granularity-Synergy pre-trainingを設計する。これは、クロスグラニュアリティアライメント、時間的接地、局所的アライメント、動きコヒーレンシー、そして運動グラウンドド・チェーン・オブ・シント(CoT)推論に共同で監督する新しい戦略である。
このモデルには、微粒な動き言語アライメント、クロスグラニュラ性シナジー、明示的な推論能力が備わっている。
第3に、大規模なデータセットであるMotionFineEdit (837K Atomic + 144K Complex Trilet) を、最初の微細な時空間補正命令とモーショングラウンドのCoTアノテーションでキュレートし、テキスト駆動モーション編集とモーショングラウンドの推論のための新しいベンチマークを構築した。
広範囲にわたる実験は、より正確なモーション生成、理解、編集のためのMotionMERGEの能力を実証し、他の複雑なモーションタスクへの説得力のあるゼロショットの一般化を示した。
この研究は、より粒度の細かい動きや人間のような推論と相互作用するモデルに向けた重要なステップである。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities [36.42160163142448]
MG-MotionLLMは多粒運動の理解と生成のための統一運動言語モデルである。
本稿では,新しい補助課題を取り入れた包括的多粒度学習手法を提案する。
MG-MotionLLMは,従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-03T10:53:41Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Pay Attention and Move Better: Harnessing Attention for Interactive Motion Generation and Training-free Editing [23.70162749652725]
我々は,注目マップを操作することで,シンプルかつ効果的な動作編集手法を多目的に開発する。
提案手法は,優れた説明性を備えた優れた生成・編集能力を有する。
論文 参考訳(メタデータ) (2024-10-24T17:59:45Z) - Programmable Motion Generation for Open-Set Motion Control Tasks [51.73738359209987]
我々は新しいパラダイム、プログラム可能なモーション生成を導入する。
このパラダイムでは、任意の運動制御タスクは原子制約の組み合わせに分解される。
これらの制約は、運動列がそれに付着する程度を定量化するエラー関数にプログラムされる。
論文 参考訳(メタデータ) (2024-05-29T17:14:55Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。