論文の概要: LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning
- arxiv url: http://arxiv.org/abs/2410.07093v1
- Date: Wed, 9 Oct 2024 17:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:37:20.437457
- Title: LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning
- Title(参考訳): LaMP: 動き生成、検索、キャプションのための言語運動事前トレーニング
- Authors: Zhe Li, Weihao Yuan, Yisheng He, Lingteng Qiu, Shenhao Zhu, Xiaodong Gu, Weichao Shen, Yuan Dong, Zilong Dong, Laurence T. Yang,
- Abstract要約: この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
- 参考スコア(独自算出の注目度): 19.801187860991117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP's pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP's motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.
- Abstract(参考訳): 言語は人間の動きの領域において重要な役割を果たす。
既存の方法は、モーション生成のためのCLIPテキストの埋め込みに大きく依存しているが、静的な画像とテキストのペアでCLIPが事前学習しているため、言語とモーションを効果的に整合させるには不足している。
この研究は、Language-Motion PretrainingモデルであるLaMPを導入し、言語ビジョンからより適切な言語モーション潜在空間に移行する。
モーションインフォームティブなテキスト埋め込みを生成することで鍵となる制限に対処し、生成されたモーションシーケンスの関連性とセマンティクスを大幅に強化する。
LaMPでは, テキスト・ツー・モーション生成, モーション・テキスト検索, 動きキャプションの3つの重要なタスクを, 一致した言語・モーション表現学習を通じて進める。
生成にはLaMPを用いてCLIPの代わりにテキスト条件を提供する。また,自動回帰マスク予測は,変圧器のランク崩壊を伴わずにマスクモデリングを実現するように設計されている。
検索には、LaMPのモーショントランスフォーマーのモーション機能がクエリトークンと相互作用し、テキストトランスフォーマーからテキスト機能を取得する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
さらに,テキスト記述による動きのアライメントを評価するため,LaMP-BertScoreメトリックを導入する。
複数のデータセットに対する大規模な実験結果は、3つのタスクすべてにわたって以前の方法よりも大幅に改善されている。
私たちのメソッドのコードは公開されます。
関連論文リスト
- An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Plan, Posture and Go: Towards Open-World Text-to-Motion Generation [43.392549755386135]
Pro-Motion という分断型フレームワークを提案する。
モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。
Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
論文 参考訳(メタデータ) (2023-12-22T17:02:45Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Think Before You Act: Unified Policy for Interleaving Language Reasoning
with Actions [21.72567982148215]
オフラインデータ上で、同様の次のステップ予測目標でトランスフォーマーをトレーニングする方法を示す。
本稿では,言語推論とアクションを一つのポリシーで統一する新しい手法を提案する。
具体的には、単語出力によるトランスフォーマーポリシーを強化し、アクションにインターリーブされたテキストキャプションを生成する。
論文 参考訳(メタデータ) (2023-04-18T16:12:38Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。