論文の概要: KinMo: Kinematic-aware Human Motion Understanding and Generation
- arxiv url: http://arxiv.org/abs/2411.15472v3
- Date: Sun, 03 Aug 2025 07:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:55.671968
- Title: KinMo: Kinematic-aware Human Motion Understanding and Generation
- Title(参考訳): KinMo: キネマティックを意識した人間の動作理解と生成
- Authors: Pengfei Zhang, Pinxin Liu, Pablo Garrido, Hyeongwoo Kim, Bindita Chaudhuri,
- Abstract要約: 現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
- 参考スコア(独自算出の注目度): 6.962697597686156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current human motion synthesis frameworks rely on global action descriptions, creating a modality gap that limits both motion understanding and generation capabilities. A single coarse description, such as run, fails to capture details such as variations in speed, limb positioning, and kinematic dynamics, leading to ambiguities between text and motion modalities. To address this challenge, we introduce KinMo, a unified framework built on a hierarchical describable motion representation that extends beyond global actions by incorporating kinematic group movements and their interactions. We design an automated annotation pipeline to generate high-quality, fine-grained descriptions for this decomposition, resulting in the KinMo dataset and offering a scalable and cost-efficient solution for dataset enrichment. To leverage these structured descriptions, we propose Hierarchical Text-Motion Alignment that progressively integrates additional motion details, thereby improving semantic motion understanding. Furthermore, we introduce a coarse-to-fine motion generation procedure to leverage enhanced spatial understanding to improve motion synthesis. Experimental results show that KinMo significantly improves motion understanding, demonstrated by enhanced text-motion retrieval performance and enabling more fine-grained motion generation and editing capabilities. Project Page: https://andypinxinliu.github.io/KinMo
- Abstract(参考訳): 現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存しており、モーション理解と生成能力の両方を制限するモダリティギャップを形成している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった細部を捉えることができず、テキストと運動のモダリティの曖昧さにつながる。
この課題に対処するために,KinMoという階層的記述可能な運動表現を基盤として構築された統合フレームワークを導入する。
我々は、この分解のための高品質できめ細かい記述を生成するために、自動アノテーションパイプラインを設計し、その結果、KinMoデータセットと、データセットの強化のためのスケーラブルでコスト効率の良いソリューションを提供する。
これらの構造的記述を活用するために,段階的に追加の動作の詳細を統合し,意味的な動作理解を改善する階層的テキスト移動アライメントを提案する。
さらに,高次空間理解を利用して動き合成を改善するための粗大な動き生成手法を提案する。
実験の結果,KinMoは動作理解を著しく改善し,テキスト・モーション検索性能を向上し,よりきめ細かな動作生成と編集機能を実現した。
Project Page: https://andypinxinliu.github.io/KinMo
関連論文リスト
- MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities [36.42160163142448]
MG-MotionLLMは多粒運動の理解と生成のための統一運動言語モデルである。
本稿では,新しい補助課題を取り入れた包括的多粒度学習手法を提案する。
MG-MotionLLMは,従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-03T10:53:41Z) - Towards Synthesized and Editable Motion In-Betweening Through Part-Wise Phase Representation [20.697417033585577]
スタイル付きモーションはコンピュータのアニメーションやゲームには不可欠だ。
身体部分レベルでの動作スタイルをモデル化する新しいフレームワークを提案する。
我々のアプローチはよりニュアンスで表現力のあるアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-03-11T08:44:27Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文 参考訳(メタデータ) (2024-10-04T06:58:45Z) - TextIM: Part-aware Interactive Motion Synthesis from Text [25.91739105467082]
TextIMは、TEXT駆動のヒューマンインタラクティブモーションを合成するための新しいフレームワークである。
我々のアプローチは、人間の脳として機能する大きな言語モデルを利用して、相互作用する人間の身体部分を特定する。
トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
論文 参考訳(メタデータ) (2024-08-06T17:08:05Z) - Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation [52.87672306545577]
既存の動き生成法は主に大域運動の直接合成に焦点を当てている。
本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。
本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
論文 参考訳(メタデータ) (2024-07-15T08:35:00Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。