論文の概要: Learning from Synthetic Human Group Activities
- arxiv url: http://arxiv.org/abs/2306.16772v1
- Date: Thu, 29 Jun 2023 08:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:06:14.230444
- Title: Learning from Synthetic Human Group Activities
- Title(参考訳): シンセティック・ヒューマングループ活動から学ぶ
- Authors: Che-Jui Chang, Honglu Zhou, Parth Goel, Aditya Bhat, Seonghyeon Moon,
Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia
- Abstract要約: M3Act(M3Act)は、マルチビューのマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティ・データ・ジェネレータである。
Unityエンジンを搭載したM3Actにはシミュレーション可能な3Dシーンと人的資産が含まれている。
我々はM3Act3Dをリリースした。これは87.6時間の人間の活動の3Dモーションデータセットで、グループサイズが大きく、対人インタラクションの複雑さが高い。
- 参考スコア(独自算出の注目度): 23.6607070770063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The understanding of complex human interactions and group activities has
garnered attention in human-centric computer vision. However, the advancement
of the related tasks is hindered due to the difficulty of obtaining large-scale
labeled real-world datasets. To mitigate the issue, we propose M3Act, a
multi-view multi-group multi-person human atomic action and group activity data
generator. Powered by the Unity engine, M3Act contains simulation-ready 3D
scenes and human assets, configurable lighting and camera systems, highly
parameterized modular group activities, and a large degree of domain
randomization during the data generation process. Our data generator is capable
of generating large-scale datasets of human activities with multiple
viewpoints, modalities (RGB images, 2D poses, 3D motions), and high-quality
annotations for individual persons and multi-person groups (2D bounding boxes,
instance segmentation masks, individual actions and group activity categories).
Using M3Act, we perform synthetic data pre-training for 2D skeleton-based group
activity recognition and RGB-based multi-person pose tracking. The results
indicate that learning from our synthetic datasets largely improves the model
performances on real-world datasets, with the highest gain of 5.59% and 7.32%
respectively in group and person recognition accuracy on CAD2, as well as an
improvement of 6.63 in MOTP on HiEve. Pre-training with our synthetic data also
leads to faster model convergence on downstream tasks (up to 6.8% faster).
Moreover, M3Act opens new research problems for 3D group activity generation.
We release M3Act3D, an 87.6-hour 3D motion dataset of human activities with
larger group sizes and higher complexity of inter-person interactions than
previous multi-person datasets. We define multiple metrics and propose a
competitive baseline for the novel task.
- Abstract(参考訳): 複雑なヒューマンインタラクションとグループアクティビティの理解は、人間中心のコンピュータビジョンにおいて注目を集めている。
しかし,大規模ラベル付き実世界のデータセットの取得が困難であるため,関連タスクの進行が妨げられている。
この問題を軽減するために,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティ・データジェネレータであるM3Actを提案する。
Unityエンジンによって駆動されるM3Actには、シミュレーション可能な3Dシーンと人的資産、設定可能な照明とカメラシステム、高度にパラメータ化されたモジュラグループアクティビティ、データ生成プロセス中のドメインランダム化が含まれている。
我々のデータジェネレータは、複数の視点、モダリティ(RGB画像、2Dポーズ、3Dモーション)、個人と多人数グループ(2Dバウンディングボックス、2Dセグメンテーションマスク、個別アクション、グループアクティビティカテゴリ)の大規模データセットを生成することができる。
M3Actを用いて2次元骨格に基づくグループ行動認識とRGBに基づく多人数ポーズトラッキングのための合成データ事前学習を行う。
その結果,本合成データセットからの学習により,実世界のデータセットにおけるモデル性能が大幅に向上し,cad2上では5.59%,7.32%,hieveでは6.63%向上した。
合成データによる事前トレーニングは、下流タスク(最大6.8%)におけるモデル収束を高速化する。
さらに、M3Actは3Dグループ活動生成のための新しい研究課題を開く。
m3act3dは87.6時間の3dモーションデータセットで、従来のマルチパーソンデータセットよりもグループサイズが大きく、人間インタラクションの複雑さが高い。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。
関連論文リスト
- MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - Multi-label Learning with Missing Values using Combined Facial Action
Unit Datasets [0.0]
顔のアクションユニットは、人間の顔の感情を記述するのに使用できる顔のマイクロムーブメントの客観的で標準化された記述を可能にする。
アクションユニットのデータアノテートは高価で時間を要する作業であり、データ状況の不足につながる。
本稿では,欠落ラベルの存在下で学習可能なデータベースとアルゴリズムを組み合わせるためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-17T11:58:06Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。