論文の概要: Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches
- arxiv url: http://arxiv.org/abs/2405.04771v1
- Date: Wed, 8 May 2024 02:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:35:21.306299
- Title: Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches
- Title(参考訳): モーションパッチを用いた3次元運動言語モデルのための視覚変換器の探索
- Authors: Qing Yu, Mikihiro Tanaka, Kent Fujiwara,
- Abstract要約: 動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
- 参考スコア(独自算出の注目度): 12.221087476416056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To build a cross-modal latent space between 3D human motion and language, acquiring large-scale and high-quality human motion data is crucial. However, unlike the abundance of image data, the scarcity of motion data has limited the performance of existing motion-language models. To counter this, we introduce "motion patches", a new representation of motion sequences, and propose using Vision Transformers (ViT) as motion encoders via transfer learning, aiming to extract useful knowledge from the image domain and apply it to the motion domain. These motion patches, created by dividing and sorting skeleton joints based on body parts in motion sequences, are robust to varying skeleton structures, and can be regarded as color image patches in ViT. We find that transfer learning with pre-trained weights of ViT obtained through training with 2D image data can boost the performance of motion analysis, presenting a promising direction for addressing the issue of limited motion data. Our extensive experiments show that the proposed motion patches, used jointly with ViT, achieve state-of-the-art performance in the benchmarks of text-to-motion retrieval, and other novel challenging tasks, such as cross-skeleton recognition, zero-shot motion classification, and human interaction recognition, which are currently impeded by the lack of data.
- Abstract(参考訳): 3次元の人の動きと言語の間に、クロスモーダルな潜伏空間を構築するためには、大規模で高品質な人の動きデータを取得することが不可欠である。
しかし、画像データの豊富さと異なり、動きデータの不足は既存の動き言語モデルの性能を制限している。
これに対応するために,動作系列の新たな表現である「動きパッチ」を導入し,画像領域から有用な知識を抽出し,動作領域に適用することを目的とした移動符号化機として視覚変換器(ViT)を提案する。
これらの動きパッチは、運動配列の身体部分に基づいて骨格関節を分割して分類することによって作成され、様々な骨格構造に対して堅牢であり、ViTのカラー画像パッチとみなすことができる。
2次元画像データを用いたトレーニングにより得られたViTの事前学習により、動作解析の性能が向上し、限られた動きデータの問題に対処するための有望な方向を示すことが判明した。
広範にわたる実験により,テキスト・ツー・モーション検索のベンチマークにおいて,ViTと共同で提案した動作パッチが最先端のパフォーマンスを達成し,また,クロススケルトン認識,ゼロショットモーション分類,人間のインタラクション認識など,現在データ不足によって妨げられている新たな課題が示された。
関連論文リスト
- Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。
このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。
部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文 参考訳(メタデータ) (2024-09-20T06:20:00Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。