論文の概要: MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context
- arxiv url: http://arxiv.org/abs/2510.02722v1
- Date: Fri, 03 Oct 2025 04:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.269135
- Title: MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context
- Title(参考訳): MoGIC:意図理解と視覚コンテキストによる動き生成
- Authors: Junyu Shi, Yong Sun, Zhiyuan Zhang, Lijiang Liu, Zhengjie Zhang, Yuxin He, Qiang Nie,
- Abstract要約: MoGICは、意図モデリングと視覚的先行をマルチモーダルモーション合成に統合するフレームワークである。
本研究では,条件付きトークンと動き列の効果的な局所的アライメントを実現するために,適応的スコープの混合注意機構を提案する。
実験の結果、FIDはHumanML3Dで38.6%、Mo440Hで34.6%減少し、軽量テキストヘッドによる動きキャプションにおけるLCMベースの手法を上回っている。
- 参考スコア(独自算出の注目度): 16.15137439724085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-driven motion generation methods often treat synthesis as a bidirectional mapping between language and motion, but remain limited in capturing the causal logic of action execution and the human intentions that drive behavior. The absence of visual grounding further restricts precision and personalization, as language alone cannot specify fine-grained spatiotemporal details. We propose MoGIC, a unified framework that integrates intention modeling and visual priors into multimodal motion synthesis. By jointly optimizing multimodal-conditioned motion generation and intention prediction, MoGIC uncovers latent human goals, leverages visual priors to enhance generation, and exhibits versatile multimodal generative capability. We further introduce a mixture-of-attention mechanism with adaptive scope to enable effective local alignment between conditional tokens and motion subsequences. To support this paradigm, we curate Mo440H, a 440-hour benchmark from 21 high-quality motion datasets. Experiments show that after finetuning, MoGIC reduces FID by 38.6\% on HumanML3D and 34.6\% on Mo440H, surpasses LLM-based methods in motion captioning with a lightweight text head, and further enables intention prediction and vision-conditioned generation, advancing controllable motion synthesis and intention understanding. The code is available at https://github.com/JunyuShi02/MoGIC
- Abstract(参考訳): 既存のテキスト駆動モーション生成法は、合成を言語と運動の双方向マッピングとして扱うことが多いが、行動実行の因果論理と行動を促進する人間の意図を捉えることに制限されている。
視覚的接地がないことは、言語だけでは微細な時空間の詳細を特定できないため、精度とパーソナライゼーションをさらに制限する。
我々は、意図モデリングと視覚的先行を多モーダルモーション合成に統合する統合フレームワークであるMoGICを提案する。
マルチモーダル条件の動作生成と意図予測を協調的に最適化することにより、MoGICは潜伏した人間の目標を明らかにし、視覚的先行性を活用して生成を強化し、多目的なマルチモーダル生成能力を示す。
さらに,条件付きトークンと動作列間の効果的な局所的アライメントを実現するために,適応的スコープの混合注意機構を導入する。
このパラダイムをサポートするために、21の高品質なモーションデータセットから440時間のベンチマークであるMo440Hをキュレートする。
実験では、微調整後、MoGICはHumanML3Dで38.6\%、Mo440Hで34.6\%のFIDを減らし、軽量テキストヘッドによる動きキャプションにおけるLCMベースの手法を上回り、さらに意図予測と視覚条件生成を可能にし、制御可能な動き合成と意図理解を促進した。
コードはhttps://github.com/JunyuShi02/MoGICで入手できる。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。
我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。
Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文 参考訳(メタデータ) (2025-03-10T06:04:31Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。