論文の概要: MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions
- arxiv url: http://arxiv.org/abs/2404.13657v1
- Date: Sun, 21 Apr 2024 13:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:01:50.397567
- Title: MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions
- Title(参考訳): MLP: 時間的意味定位に先立つ運動ラベル
- Authors: Sheng Yan, Mengyuan Liu, Yong Wang, Yang Liu, Chen Chen, Hong Liu,
- Abstract要約: 本研究の目的は,テキストクエリに対応する3次元人間の動作から目標モーメントを見つけることである。
これを改善するために,2つの新しいラベル事前知識学習手法を考案した。
ラベル優先知識をモデルに注入することは,高いIoUでの性能向上に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 20.986063755422173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the unexplored question of temporal sentence localization in human motions (TSLM), aiming to locate a target moment from a 3D human motion that semantically corresponds to a text query. Considering that 3D human motions are captured using specialized motion capture devices, motions with only a few joints lack complex scene information like objects and lighting. Due to this character, motion data has low contextual richness and semantic ambiguity between frames, which limits the accuracy of predictions made by current video localization frameworks extended to TSLM to only a rough level. To refine this, we devise two novel label-prior-assisted training schemes: one embed prior knowledge of foreground and background to highlight the localization chances of target moments, and the other forces the originally rough predictions to overlap with the more accurate predictions obtained from the flipped start/end prior label sequences during recovery training. We show that injecting label-prior knowledge into the model is crucial for improving performance at high IoU. In our constructed TSLM benchmark, our model termed MLP achieves a recall of 44.13 at IoU@0.7 on the BABEL dataset and 71.17 on HumanML3D (Restore), outperforming prior works. Finally, we showcase the potential of our approach in corpus-level moment retrieval. Our source code is openly accessible at https://github.com/eanson023/mlp.
- Abstract(参考訳): 本稿では,人間の動作における時間的文の局所化に関する未探索問題に対処し,テキストクエリに対応する3次元動作から目標モーメントを見つけることを目的とした。
特殊なモーションキャプチャー装置を使って3Dの人間の動きを捉えることを考えると、わずかな関節しか持たない動きは、物体や照明のような複雑なシーン情報を欠いている。
この特徴により、モーションデータはフレーム間の文脈的豊かさと意味的あいまいさが低く、TSLMに拡張された現在のビデオローカライゼーションフレームワークによる予測の精度をわずかに制限する。
そこで本研究では,前景と背景の事前知識を組み込んで,目標モーメントの局所化確率を推定する手法を考案し,その一方で,元の粗い予測を,リカバリトレーニングの開始/終了前のラベル列から得られるより正確な予測と重なり合うようにした。
ラベル優先知識をモデルに注入することは,IoUの高い性能向上に不可欠であることを示す。
構築したTSLMベンチマークでは,BABELデータセットのIoU@0.7で44.13,HumanML3D(Restore)で71.17のリコールを達成した。
最後に,コーパスレベルのモーメント検索におけるアプローチの可能性を示す。
ソースコードはhttps://github.com/eanson023/mlp.comで公開されています。
関連論文リスト
- ReMP: Reusable Motion Prior for Multi-domain 3D Human Pose Estimation and Motion Inbetweening [10.813269931915364]
我々は人体形状の完全なパラメトリックモデルの前列からリッチな動きを学習する。
我々の前者は、フレーム不足やノイズ測定で簡単にポーズを推定できる。
ReMPは、多種多様な実用的な3Dモーションデータに基づくベースライン法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-11-13T02:42:07Z) - Past Movements-Guided Motion Representation Learning for Human Motion Prediction [0.0]
動作表現の強化を目的とした自己教師型学習フレームワークを提案する。
フレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。
提案手法は,Human3.6,3DPW,AMASSデータセットの平均予測誤差を8.8%削減する。
論文 参考訳(メタデータ) (2024-08-04T17:00:37Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - We are More than Our Joints: Predicting how 3D Bodies Move [63.34072043909123]
我々は、潜時周波数から動きを生成する新しい変分オートエンコーダを訓練する。
実験の結果,本手法は最先端の3Dボディアニメーションとリアルな3Dボディアニメーションを生成することがわかった。
論文 参考訳(メタデータ) (2020-12-01T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。