論文の概要: Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation
- arxiv url: http://arxiv.org/abs/2412.11193v1
- Date: Sun, 15 Dec 2024 13:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:24.630917
- Title: Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation
- Title(参考訳): Light-T2M:テキスト・モーション・ジェネレーションのための軽量で高速なモデル
- Authors: Ling-An Zeng, Guohong Huang, Gaojie Wu, Wei-Shi Zheng,
- Abstract要約: テキスト・トゥ・モーション(T2M)生成は様々なアプリケーションにおいて重要な役割を果たしている。
現在の手法ではパラメータが多数含まれており、推論速度が遅い。
本稿では,軽量で高速なLight-T2Mモデルを提案する。
- 参考スコア(独自算出の注目度): 30.05431858162078
- License:
- Abstract: Despite the significant role text-to-motion (T2M) generation plays across various applications, current methods involve a large number of parameters and suffer from slow inference speeds, leading to high usage costs. To address this, we aim to design a lightweight model to reduce usage costs. First, unlike existing works that focus solely on global information modeling, we recognize the importance of local information modeling in the T2M task by reconsidering the intrinsic properties of human motion, leading us to propose a lightweight Local Information Modeling Module. Second, we introduce Mamba to the T2M task, reducing the number of parameters and GPU memory demands, and we have designed a novel Pseudo-bidirectional Scan to replicate the effects of a bidirectional scan without increasing parameter count. Moreover, we propose a novel Adaptive Textual Information Injector that more effectively integrates textual information into the motion during generation. By integrating the aforementioned designs, we propose a lightweight and fast model named Light-T2M. Compared to the state-of-the-art method, MoMask, our Light-T2M model features just 10\% of the parameters (4.48M vs 44.85M) and achieves a 16\% faster inference time (0.152s vs 0.180s), while surpassing MoMask with an FID of \textbf{0.040} (vs. 0.045) on HumanML3D dataset and 0.161 (vs. 0.228) on KIT-ML dataset. The code is available at https://github.com/qinghuannn/light-t2m.
- Abstract(参考訳): テキスト・トゥ・モーション(T2M)生成は様々なアプリケーションで重要な役割を担っているが、現在の手法には多くのパラメータが伴い、推論速度が遅いため、高い使用コストがかかる。
この問題に対処するため,我々は,使用コストを削減するための軽量モデルの設計を目標としている。
まず,グローバルな情報モデリングにのみ焦点をあてる既存の作業とは違って,人間の動作の本質的特性を再考することで,T2Mタスクにおけるローカル情報モデリングの重要性を認識し,軽量なローカル情報モデリングモジュールを提案する。
第2に、T2MタスクにMambaを導入し、パラメータ数とGPUメモリ要求を減らすとともに、パラメータ数を増やすことなく双方向スキャンの効果を再現する新しいPseudo-bidirectional Scanを設計した。
さらに,テキスト情報を生成時の動作に効果的に統合する適応型テキスト情報インジェクタを提案する。
上記の設計を統合することにより,軽量かつ高速なLight-T2Mモデルを提案する。
最先端の手法であるMoMaskと比較して、我々のLight-T2Mモデルはパラメータの10倍(4.48M vs 44.85M)しかなく、16倍高速な推論時間(0.152s vs 0.180s)を実現し、HumanML3DデータセットではFIDが \textbf{0.040} (vs. 0.045)、KIT-MLデータセットでは0.161(vs. 0.228)である。
コードはhttps://github.com/qinghuannn/light-t2mで公開されている。
関連論文リスト
- SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation [21.242398582282522]
視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。
MDSGenはマスク付き拡散変換器を採用し、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。
ベンチマークVGGSoundデータセットから評価すると、最小のモデル(5Mパラメータ)は9.7.9$%のアライメント精度を実現している。
我々のより大きなモデル(131Mパラメータ)は、ほぼ99$%の精度に到達し、6.5times$より少ないパラメータを必要とします。
論文 参考訳(メタデータ) (2024-10-03T01:23:44Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning [1.3192560874022086]
LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
論文 参考訳(メタデータ) (2020-12-15T19:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。