論文の概要: Learning from Synthetic Human Group Activities
- arxiv url: http://arxiv.org/abs/2306.16772v3
- Date: Mon, 20 Nov 2023 03:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:02:00.889916
- Title: Learning from Synthetic Human Group Activities
- Title(参考訳): シンセティック・ヒューマングループ活動から学ぶ
- Authors: Che-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou,
Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir
Kapadia
- Abstract要約: M3Actはマルチビュー・マルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータである。
Unityエンジンによって駆動されるM3Actは、複数のセマンティックグループ、非常に多様なフォトリアリスティックなイメージを備えている。
各種入力モダリティを用いた3つのコア実験におけるM3Actの利点を実証する。
- 参考スコア(独自算出の注目度): 18.872724252168876
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of complex human interactions and group activities has become a
focal point in human-centric computer vision. However, progress in related
tasks is often hindered by the challenges of obtaining large-scale labeled
datasets from real-world scenarios. To address the limitation, we introduce
M3Act, a synthetic data generator for multi-view multi-group multi-person human
atomic actions and group activities. Powered by the Unity engine, M3Act
features multiple semantic groups, highly diverse and photorealistic images,
and a comprehensive set of annotations, which facilitates the learning of
human-centered tasks across single-person, multi-person, and multi-group
conditions. We demonstrate the advantages of M3Act across three core
experiments using various input modalities. First, adding our synthetic data
significantly improves the performance of MOTRv2 on DanceTrack, leading to a
hop on the leaderboard from 10th to 2nd place. With M3Act, we achieve tracking
results on par with MOTRv2*, which is trained with 62.5% more real-world data.
Second, M3Act improves the benchmark performances on CAD2 by 5.59% and 7.43% on
group activity and atomic action accuracy respectively. Moreover, M3Act opens
new research for controllable 3D group activity generation. We define multiple
metrics and propose a competitive baseline for the novel task.
- Abstract(参考訳): 複雑な人間の相互作用と集団活動の研究は、人間中心のコンピュータビジョンの焦点となっている。
しかし、関連するタスクの進捗は、実世界のシナリオから大規模ラベル付きデータセットを取得するという課題によって妨げられることが多い。
この制限に対処するために,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータm3actを紹介する。
unityエンジンを搭載したm3actは、複数のセマンティックグループ、高度に多様なフォトリアリスティックなイメージ、そして、人間中心のタスクの学習を容易にする包括的なアノテーションセットを備えている。
各種入力モダリティを用いた3つのコア実験におけるM3Actの利点を示す。
まず、合成データを追加することで、dancetrackでのmotrv2のパフォーマンスが大幅に向上し、リードボードが10位から2位に跳ね上がりました。
M3Actでは、実世界の62.5%のデータをトレーニングしたMOTRv2*と同等の追跡結果が得られる。
第2に、M3ActはCAD2のベンチマーク性能を5.59%改善し、グループアクティビティとアトミックアクションの精度は7.43%向上した。
さらに、M3Actは制御可能な3Dグループ活動生成のための新しい研究を開始した。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。
関連論文リスト
- MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - Multi-label Learning with Missing Values using Combined Facial Action
Unit Datasets [0.0]
顔のアクションユニットは、人間の顔の感情を記述するのに使用できる顔のマイクロムーブメントの客観的で標準化された記述を可能にする。
アクションユニットのデータアノテートは高価で時間を要する作業であり、データ状況の不足につながる。
本稿では,欠落ラベルの存在下で学習可能なデータベースとアルゴリズムを組み合わせるためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-17T11:58:06Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。