論文の概要: Learning from Synthetic Human Group Activities
- arxiv url: http://arxiv.org/abs/2306.16772v5
- Date: Tue, 26 Mar 2024 18:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:12:22.223388
- Title: Learning from Synthetic Human Group Activities
- Title(参考訳): シンセティック・ヒューマングループ活動から学ぶ
- Authors: Che-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia,
- Abstract要約: M3Actはマルチビュー・マルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータである。
Unity Engineによって開発されたM3Actは、複数のセマンティックグループ、非常に多様なフォトリアリスティックなイメージを備えている。
M3Actは、DanceTrackデータセットの最先端のMOTRv2を改善し、リーダボードを10位から2位までホップする。
- 参考スコア(独自算出の注目度): 18.264989896254523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of complex human interactions and group activities has become a focal point in human-centric computer vision. However, progress in related tasks is often hindered by the challenges of obtaining large-scale labeled datasets from real-world scenarios. To address the limitation, we introduce M3Act, a synthetic data generator for multi-view multi-group multi-person human atomic actions and group activities. Powered by Unity Engine, M3Act features multiple semantic groups, highly diverse and photorealistic images, and a comprehensive set of annotations, which facilitates the learning of human-centered tasks across single-person, multi-person, and multi-group conditions. We demonstrate the advantages of M3Act across three core experiments. The results suggest our synthetic dataset can significantly improve the performance of several downstream methods and replace real-world datasets to reduce cost. Notably, M3Act improves the state-of-the-art MOTRv2 on DanceTrack dataset, leading to a hop on the leaderboard from 10th to 2nd place. Moreover, M3Act opens new research for controllable 3D group activity generation. We define multiple metrics and propose a competitive baseline for the novel task. Our code and data are available at our project page: http://cjerry1243.github.io/M3Act.
- Abstract(参考訳): 複雑なヒューマンインタラクションとグループ活動の研究は、人間中心のコンピュータビジョンの焦点となっている。
しかし、関連するタスクの進捗は、現実のシナリオから大規模ラベル付きデータセットを取得するという課題によって妨げられることが多い。
この制限に対処するため,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータであるM3Actを導入する。
Unity EngineによってパワーアップされたM3Actは、複数のセマンティックグループ、高度に多様性があり、フォトリアリスティックなイメージ、そして一対一、多対一、多群条件で人間中心のタスクの学習を容易にする包括的なアノテーションセットを備えている。
3つの実験でM3Actの利点を実証した。
その結果、我々の合成データセットは、いくつかの下流手法の性能を大幅に改善し、実際のデータセットを置き換えることでコストを削減できることが示唆された。
特に、M3ActはDanceTrackデータセットの最先端のMOTRv2を改善し、リーダボードを10位から2位までホップする。
さらに、M3Actは、制御可能な3Dグループアクティビティ生成のための新しい研究を開始した。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。
私たちのコードとデータは、プロジェクトのページで利用可能です。
関連論文リスト
- MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - Multi-label Learning with Missing Values using Combined Facial Action
Unit Datasets [0.0]
顔のアクションユニットは、人間の顔の感情を記述するのに使用できる顔のマイクロムーブメントの客観的で標準化された記述を可能にする。
アクションユニットのデータアノテートは高価で時間を要する作業であり、データ状況の不足につながる。
本稿では,欠落ラベルの存在下で学習可能なデータベースとアルゴリズムを組み合わせるためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-17T11:58:06Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。