論文の概要: MotionHiFlow: Text-to-motion via hierarchical flow matching
- arxiv url: http://arxiv.org/abs/2604.23264v1
- Date: Sat, 25 Apr 2026 12:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.23533
- Title: MotionHiFlow: Text-to-motion via hierarchical flow matching
- Title(参考訳): MotionHiFlow:階層フローマッチングによるテキスト・トゥ・モーション
- Authors: Heng Li, Xiaotong Lin, Ling-An Zeng, Yulei Kang, Shuai Li, Jian-Fang Hu,
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションは、入力されたテキストと密に一致した3次元の人間の動きを生成することを目的としている。
動きを段階的に生成する階層型フローマッチングフレームワークである textitMotionHiFlow を提案する。
低スケールでのフローは高レベルのセマンティクスと粗い動き構造を捉え、高スケールでのフローは時間的詳細を洗練させる。
- 参考スコア(独自算出の注目度): 23.3063383764363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation aims to generate 3D human motions that are tightly aligned with the input text while remaining physically plausible and rich in fine-grained detail. Although recent approaches can produce complex and natural movements, they usually operate at only one temporal scale, which limits both semantic alignment and temporal coherence. Inspired by the fact that complex motions are conceptualized hierarchically rather than at a single temporal scale in the human cognitive system, we propose \textit{MotionHiFlow}, a hierarchical flow matching framework to generate motion progressively by constructing flow path from low to high temporal scales. The flows at lower scales capture high-level semantics and coarse motion structures, while flows at higher scales refine temporal details. To link the flows across scales, we introduce a novel cross-scale transition process, ensuring continuity and preserving noise consistency. Furthermore, by integrating a Text-Motion Diffusion Transformer and a topology-aware Motion VAE, MotionHiFlow explicitly models structural dependencies among joints via joint-aware positional encoding and skeletal topology, enabling precise semantic alignment alongside fine-grained motion details. Extensive experiments on HumanML3D and KIT-ML benchmarks demonstrate state-of-the-art performance, with ablation studies confirming the effectiveness of the hierarchical design and key components. Code is available at https://github.com/ai-lh/MotionHiFlow.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは、入力テキストと密に一致した3次元の人体の動きを生成することを目的としている。
最近のアプローチは複雑で自然な動きを生じさせるが、通常は1つの時間スケールでのみ機能し、意味的アライメントと時間的コヒーレンスの両方を制限する。
複雑な動きは、人間の認知システムにおいて、単一の時間スケールではなく階層的に概念化されているという事実に着想を得て、低時間スケールから高時間スケールへのフローパスを構築することで、動きを段階的に生成する階層的なフローマッチングフレームワークである「textit{MotionHiFlow}」を提案する。
低スケールでのフローは高レベルのセマンティクスと粗い動き構造を捉え、高スケールでのフローは時間的詳細を洗練させる。
そこで我々は, 連続性を確保し, 音の整合性を保ちながら, クロススケールな遷移過程を新たに導入する。
さらに、テキスト-運動拡散変換器とトポロジ対応モーションVAEを統合することで、MotionHiFlowは関節間の構造的依存関係を、関節認識位置符号化と骨格トポロジを通じて明示的にモデル化し、精密なセマンティックアライメントを可能にする。
HumanML3DとKIT-MLベンチマークの大規模な実験では、最先端のパフォーマンスが実証され、階層設計とキーコンポーネントの有効性が確認された。
コードはhttps://github.com/ai-lh/MotionHiFlow.comで入手できる。
関連論文リスト
- FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling [3.303238786179896]
FlowCoMotionは、新しいモーション生成フレームワークである。
セマンティックコンテンツと高忠実度モーションの詳細をキャプチャする。
テキスト・ツー・モーションのベンチマークで競争力を発揮する。
論文 参考訳(メタデータ) (2026-04-13T07:04:47Z) - HO-Flow: Generalizable Hand-Object Interaction Generation with Latent Flow Matching [113.81911881001905]
HO-Flowはテキストと正準3Dオブジェクトから現実的な手動動作シーケンスを合成するためのフレームワークである。
まず、手動と物体の動きのシーケンスを統一された潜在多様体に符号化するために、相互作用を意識した変分オートエンコーダを用いる。
次に、自己回帰的時間的推論と連続的な潜伏生成を組み合わせたマスク付きフローマッチングモデルを利用する。
論文 参考訳(メタデータ) (2026-04-12T22:06:11Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment [38.42799902378583]
仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
TAPOとMotionFLUXは、セマンティック一貫性とモーション品質の両方において最先端のアプローチより優れている統一システムを形成する。
論文 参考訳(メタデータ) (2025-08-27T02:45:09Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。