論文の概要: FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling
- arxiv url: http://arxiv.org/abs/2604.11083v1
- Date: Mon, 13 Apr 2026 07:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.379196
- Title: FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling
- Title(参考訳): FlowCoMotion:Token-Latent Flow Modelingによるテキスト・ツー・モーション生成
- Authors: Dawei Guan, Di Yang, Chengjie Jin, Jiangtao Wang,
- Abstract要約: FlowCoMotionは、新しいモーション生成フレームワークである。
セマンティックコンテンツと高忠実度モーションの詳細をキャプチャする。
テキスト・ツー・モーションのベンチマークで競争力を発揮する。
- 参考スコア(独自算出の注目度): 3.303238786179896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation is driven by learning motion representations for semantic alignment with language. Existing methods rely on either continuous or discrete motion representations. However, continuous representations entangle semantics with dynamics, while discrete representations lose fine-grained motion details. In this context, we propose FlowCoMotion, a novel motion generation framework that unifies both treatments from a modeling perspective. Specifically, FlowCoMotion employs token-latent coupling to capture both semantic content and high-fidelity motion details. In the latent branch, we apply multi-view distillation to regularize the continuous latent space, while in the token branch we use discrete temporal resolution quantization to extract high-level semantic cues. The motion latent is then obtained by combining the representations from the two branches through a token-latent coupling network. Subsequently, a velocity field is predicted based on the textual conditions. An ODE solver integrates this velocity field from a simple prior, thereby guiding the sample to the potential state of the target motion. Extensive experiments show that FlowCoMotion achieves competitive performance on text-to-motion benchmarks, including HumanML3D and SnapMoGen.
- Abstract(参考訳): テキスト・トゥ・モーション生成は、言語とのセマンティックアライメントのための動き表現の学習によって駆動される。
既存の方法は連続的あるいは離散的な運動表現に依存する。
しかし、連続表現は動的な意味論と絡み合うが、離散表現は細かい運動の詳細を失う。
本研究では,モデリングの観点から両処理を統一する新しいモーション生成フレームワークであるFlowCoMotionを提案する。
具体的には、FlowCoMotionはトークン-レイテンシ結合を使用して、セマンティックコンテンツと高忠実度モーションの詳細の両方をキャプチャする。
潜水枝では連続潜水空間の正則化に多視点蒸留を適用し,トークン枝では離散時間分解量子化を用いて高レベルの意味的手がかりを抽出する。
次に、2つの分岐からの表現をトークン-ラテントカップリングネットワークを介して組み合わせることで、動き潜伏剤を得る。
その後、テキスト条件に基づいて速度場を予測する。
ODEソルバは、この速度場を単純な事前から積分し、試料を目標運動の電位状態に導く。
大規模な実験によると、FlowCoMotionはHumanML3DやSnapMoGenなど、テキスト間ベンチマークで競合的なパフォーマンスを実現している。
関連論文リスト
- DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding [25.254783224309488]
マスク付きモデリングからテキスト-モーション理解と生成まで拡張した,離散拡散スタイルのフレームワークであるDiMoを提案する。
動きをトークン化し、順次デコードするGPTスタイルの自己回帰アプローチとは異なり、DiMoは繰り返しマスク付きトークン精錬を行う。
HumanML3DとKIT-MLの実験は、強い運動品質と競合する双方向理解を示す。
論文 参考訳(メタデータ) (2026-02-04T04:01:02Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。