論文の概要: Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning
- arxiv url: http://arxiv.org/abs/2404.05578v1
- Date: Mon, 8 Apr 2024 14:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:05:34.598431
- Title: Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning
- Title(参考訳): ソーシャルMAE:多人数動作表現学習のためのソーシャルマスク付きオートエンコーダ
- Authors: Mahsa Ehsanpour, Ian Reid, Hamid Rezatofighi,
- Abstract要約: マルチ対人動作データのためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるSocial-MAEを紹介する。
このフレームワークは、マスク付きモデリングを使用して、エンコーダを事前訓練し、マスク付きヒト関節軌道を再構築する。
それは、多人数のポーズ予測、社会的グループ化、社会的行動理解など、様々な高度な社会的タスクに関する最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 16.85316898267404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For a complete comprehension of multi-person scenes, it is essential to go beyond basic tasks like detection and tracking. Higher-level tasks, such as understanding the interactions and social activities among individuals, are also crucial. Progress towards models that can fully understand scenes involving multiple people is hindered by a lack of sufficient annotated data for such high-level tasks. To address this challenge, we introduce Social-MAE, a simple yet effective transformer-based masked autoencoder framework for multi-person human motion data. The framework uses masked modeling to pre-train the encoder to reconstruct masked human joint trajectories, enabling it to learn generalizable and data efficient representations of motion in human crowded scenes. Social-MAE comprises a transformer as the MAE encoder and a lighter-weight transformer as the MAE decoder which operates on multi-person joints' trajectory in the frequency domain. After the reconstruction task, the MAE decoder is replaced with a task-specific decoder and the model is fine-tuned end-to-end for a variety of high-level social tasks. Our proposed model combined with our pre-training approach achieves the state-of-the-art results on various high-level social tasks, including multi-person pose forecasting, social grouping, and social action understanding. These improvements are demonstrated across four popular multi-person datasets encompassing both human 2D and 3D body pose.
- Abstract(参考訳): マルチパーソンシーンの完全な理解のためには、検出や追跡といった基本的なタスクを超えることが不可欠である。
個人間の相互作用や社会的活動を理解するといった高度なタスクも重要である。
複数人を含むシーンを完全に理解できるモデルへの進歩は、このようなハイレベルなタスクに十分なアノテートデータがないために妨げられます。
この課題に対処するために、ソーシャルMAE(Social-MAE)を導入し、マルチパーソナライズされた人体動作データのための、シンプルで効果的なトランスフォーマーベースのマスク付きオートエンコーダフレームワークを提案する。
このフレームワークは、マスク付きモデリングを使用して、エンコーダを事前訓練し、マスク付きヒトの関節軌道を再構築し、人間の混雑したシーンにおける動きの一般化とデータの効率的な表現を学習することができる。
ソーシャルMAEは、MAEエンコーダとしてのトランスフォーマと、周波数領域における多人数関節の軌道で動作するMAEデコーダとしての軽量トランスフォーマとを備える。
再構成作業後、MAEデコーダをタスク固有のデコーダに置き換え、様々な高レベルのソーシャルタスクに対して、モデルが微調整されたエンド・ツー・エンドとなる。
提案モデルと事前学習アプローチを組み合わせることで,多人数のポーズ予測,ソーシャルグループ化,社会的行動理解など,さまざまな高度な社会的課題に対する最先端の成果が得られる。
これらの改善は、人間の2Dと3Dのボディーポーズを含む4つの一般的なマルチパーソンデータセットで実証されている。
関連論文リスト
- CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics [44.30880626337739]
CooHOIはマルチヒューマノイド物体輸送問題の解決を目的としたフレームワークである。
単一のヒューマノイドキャラクタは、人間の動きの先行から模倣学習を通じてオブジェクトと対話することを学ぶ。
そして、ヒューマノイドは、操作対象の共有ダイナミクスを考慮し、他人と協調することを学ぶ。
論文 参考訳(メタデータ) (2024-06-20T17:59:22Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Multi-Person 3D Motion Prediction with Multi-Range Transformers [16.62864429495888]
本稿では,個人動作のためのローカルレンジエンコーダと,ソーシャルインタラクションのためのグローバルレンジエンコーダを含むマルチランジトランスフォーマーモデルを提案する。
我々のモデルは、長期3次元動作予測における最先端の手法に勝るだけでなく、多様な社会的相互作用も生み出す。
論文 参考訳(メタデータ) (2021-11-23T18:41:13Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。