論文の概要: FrankenMotion: Part-level Human Motion Generation and Composition
- arxiv url: http://arxiv.org/abs/2601.10909v1
- Date: Thu, 15 Jan 2026 23:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.308863
- Title: FrankenMotion: Part-level Human Motion Generation and Composition
- Title(参考訳): FrankenMotion: パートレベルのヒューマンモーション生成と構成
- Authors: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll,
- Abstract要約: 原子的かつ時間的に認識可能な部分レベルのテキストアノテーションを用いた高品質なモーションデータセットを構築する。
我々のデータセットは、時間分解能で非同期かつ意味的に異なる部分の動きをキャプチャする。
本データセットに基づいて,FrankenMotionという拡散型部分認識モーション生成フレームワークを導入する。
- 参考スコア(独自算出の注目度): 41.84042766842064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.
- Abstract(参考訳): 近年,テキストプロンプトによる人間の動作生成は顕著な進歩を遂げている。
しかし、既存のメソッドは主に、細かな部分レベルのモーションアノテーションがないため、シーケンスレベルの記述かアクションレベルの記述に頼っている。
これにより、個々の身体部分に対する制御性が制限される。
本研究では,大規模言語モデル(LLM)の推論機能を活用し,原子的かつ時間的に認識可能な部分レベルのテキストアノテーションを用いた高品質な動作データセットを構築する。
固定時間セグメントで同期された部分キャプションを提供する以前のデータセットやグローバルなシーケンスラベルにのみ依存する以前のデータセットとは異なり、我々のデータセットは、微細時間分解能で非同期かつ意味的に異なる部分の動きをキャプチャする。
本データセットに基づいて,FrankenMotionという拡散型部分認識動作生成フレームワークを導入し,各部位を時間的に構造化したテキストプロンプトでガイドする。
これは、私たちの知る限りでは、原子的に時間的に認識される部分レベルのモーションアノテーションを提供し、空間的(身体的)と時間的(原子的)の両方の操作で動きを生成できるモデルを持つ最初の研究である。
実験により、FrankenMotionは、我々の設定に合わせて適応および再訓練された全てのベースラインモデルより優れており、我々のモデルはトレーニング中に目に見えない動きを合成できることを示した。
コードとデータセットは公開時に公開されます。
関連論文リスト
- Dense Motion Captioning [23.084589115674586]
Dense Motion Captioningは、人間の3次元動作シーケンス内の時間的ローカライズとキャプション動作を目的とした、新しいタスクである。
提案するCompMoは,高精度な時間境界を持つリッチアノテートされた複雑な動き列を特徴とする,最初の大規模データセットである。
また,大規模な言語モデルとシンプルなモーションアダプタを統合するモデルであるDEMOを,高密度の時間的接頭辞を生成するために訓練した。
論文 参考訳(メタデータ) (2025-11-07T15:55:10Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models [12.221087476416056]
本研究では,動作言語モデルの時系列的理解を評価するために,時間的精度の高い検索手法を提案する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
論文 参考訳(メタデータ) (2024-07-22T06:25:21Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion [44.72078061390906]
テキストベースヒューマンモーショングラウンドティング(THMG)の新たな課題について紹介する。
TM-Mambaは、時間的グローバルコンテキスト、言語クエリ制御、空間グラフトポロジを線形メモリコストのみで統合する統一モデルである。
BABEL-Groundingは、人間の行動の詳細なテキスト記述と対応する時間セグメントを提供する最初のテキスト・モーション・データセットである。
論文 参考訳(メタデータ) (2024-04-17T13:33:09Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。