論文の概要: HMVLM: Human Motion-Vision-Lanuage Model via MoE LoRA
- arxiv url: http://arxiv.org/abs/2511.01463v1
- Date: Mon, 03 Nov 2025 11:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.237611
- Title: HMVLM: Human Motion-Vision-Lanuage Model via MoE LoRA
- Title(参考訳): HMVLM:MoE LoRAによる人間のモーションビジョン・ラヌージモデル
- Authors: Lei Hu, Yongjing Ye, Shihong Xia,
- Abstract要約: 3次元の人間の動きは、マルチモーダル理解とクロスモーダル生成能力を高めるため、ファンデーションモデルと徐々に統合されている。
本稿では,Mixture of Expert Low-Rank Adaption(MoE LoRA)戦略に基づく統合フレームワークであるHuman Motion-Vision-Language Model(HMVLM)を提案する。
提案手法は,指導訓練中の知識の忘れを効果的に軽減し,多種多様な下流作業において顕著な性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 19.21746661300773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expansion of instruction-tuning data has enabled foundation language models to exhibit improved instruction adherence and superior performance across diverse downstream tasks. Semantically-rich 3D human motion is being progressively integrated with these foundation models to enhance multimodal understanding and cross-modal generation capabilities. However, the modality gap between human motion and text raises unresolved concerns about catastrophic forgetting during this integration. In addition, developing autoregressive-compatible pose representations that preserve generalizability across heterogeneous downstream tasks remains a critical technical barrier. To address these issues, we propose the Human Motion-Vision-Language Model (HMVLM), a unified framework based on the Mixture of Expert Low-Rank Adaption(MoE LoRA) strategy. The framework leverages the gating network to dynamically allocate LoRA expert weights based on the input prompt, enabling synchronized fine-tuning of multiple tasks. To mitigate catastrophic forgetting during instruction-tuning, we introduce a novel zero expert that preserves the pre-trained parameters for general linguistic tasks. For pose representation, we implement body-part-specific tokenization by partitioning the human body into different joint groups, enhancing the spatial resolution of the representation. Experiments show that our method effectively alleviates knowledge forgetting during instruction-tuning and achieves remarkable performance across diverse human motion downstream tasks.
- Abstract(参考訳): インストラクションチューニングデータの拡張により、基礎言語モデルでは、様々なダウンストリームタスクにまたがる改善されたインストラクションアテンデンスと優れたパフォーマンスを示すことが可能になった。
逐次的にリッチな3Dモーションは、これらの基礎モデルと徐々に統合され、マルチモーダル理解とクロスモーダル生成能力が向上している。
しかしながら、人間の動きとテキストの間のモダリティのギャップは、この統合中に破滅的な忘れ物に関する未解決の懸念を提起する。
さらに、不均一な下流タスク間の一般化性を保った自己回帰互換のポーズ表現を開発することは、依然として重要な技術的障壁である。
これらの課題に対処するため,我々は,Mixture of Expert Low-Rank Adaption (MoE LoRA)戦略に基づく統合フレームワークであるHuman Motion-Vision-Language Model (HMVLM)を提案する。
このフレームワークはゲーティングネットワークを活用し、入力プロンプトに基づいてLoRA専門家の重み付けを動的に割り当て、複数のタスクの同期微調整を可能にする。
教育訓練中の破滅的な忘れを軽減すべく, 一般言語タスクの事前学習パラメータを保存する新しいゼロエキスパートを導入する。
ポーズ表現には、人体を異なる関節群に分割し、表現の空間分解能を高めることで、身体部分固有のトークン化を実装する。
実験により,本手法は,指導訓練中の知識の忘れを効果的に軽減し,多種多様な下流作業において顕著な性能を発揮することが示された。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation [43.12717215650305]
我々は、集合モーション生成のための最初のゼロショットフレームワークであるCrowdMoGenを紹介する。
CrowdMoGenは、個人を効果的にグループ化し、テキストプロンプトからイベント整列モーションシーケンスを生成する。
集合運動生成の第1のフレームワークとして、CrowdMoGenは、都市シミュレーション、群衆計画、その他の大規模対話環境における応用を前進させる可能性を秘めている。
論文 参考訳(メタデータ) (2024-07-08T17:59:36Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。