論文の概要: JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection
- arxiv url: http://arxiv.org/abs/2106.08827v1
- Date: Wed, 16 Jun 2021 14:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:20:58.855042
- Title: JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection
- Title(参考訳): JRDB-Act:時空間行動・社会集団・活動検出のための大規模マルチモーダルデータセット
- Authors: Mahsa Ehsanpour, Fatemeh Saleh, Silvio Savarese, Ian Reid, Hamid
Rezatofighi
- Abstract要約: 大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
- 参考スコア(独自算出の注目度): 54.696819174421584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of large-scale video action understanding datasets has
facilitated advances in the interpretation of visual scenes containing people.
However, learning to recognize human activities in an unconstrained real-world
environment, with potentially highly unbalanced and long-tailed distributed
data remains a significant challenge, not least owing to the lack of a
reflective large-scale dataset. Most existing large-scale datasets are either
collected from a specific or constrained environment, e.g. kitchens or rooms,
or video sharing platforms such as YouTube. In this paper, we introduce
JRDB-Act, a multi-modal dataset, as an extension of the existing JRDB, which is
captured by asocial mobile manipulator and reflects a real distribution of
human daily life actions in a university campus environment. JRDB-Act has been
densely annotated with atomic actions, comprises over 2.8M action labels,
constituting a large-scale spatio-temporal action detection dataset. Each human
bounding box is labelled with one pose-based action label and multiple
(optional) interaction-based action labels. Moreover JRDB-Act comes with social
group identification annotations conducive to the task of grouping individuals
based on their interactions in the scene to infer their social activities
(common activities in each social group).
- Abstract(参考訳): 大規模ビデオアクション理解データセットの可用性は、人を含む視覚シーンの解釈の進歩を促した。
しかし、高度にバランスのとれたロングテールの分散データを持つ、訓練されていない実世界環境で人間の活動を認識することの学習は、特に反射型大規模データセットの欠如のために、重要な課題である。
既存の大規模データセットの多くは、特定の環境や制約のある環境から収集される。
キッチンや部屋、YouTubeのようなビデオ共有プラットフォーム。
本稿では,大学構内における生活行動の実際の分布を反映した,既存のJRDBの拡張として,マルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actは280万以上のアクションラベルから構成され、大規模な時空間行動検出データセットを構成する。
各人間のバウンディングボックスには、1つのポーズベースのアクションラベルと複数の(オプションの)インタラクションベースのアクションラベルがラベルされている。
さらに、JRDB-Actには、現場での交流に基づいて個人をグループ化し、社会的活動(各社会集団の共通活動)を推測するソーシャルグループ識別アノテーションが付属している。
関連論文リスト
- JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups [8.415759777703125]
JRDB-Socialは、屋内・屋外の多様な社会的文脈における人間の理解のギャップを埋める。
このデータセットは、ロボットアプリケーションのための人間の社会的ダイナミクスの把握を強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-06T00:33:39Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - JRDB-Pose: A Large-scale Dataset for Multi-Person Pose Estimation and
Tracking [6.789370732159177]
マルチパーソンポーズ推定と追跡のための大規模データセットであるJRDB-Poseを紹介する。
データセットには、屋内と屋外の混雑したチャレンジシーンが含まれています。
JRDB-Poseは、キーポイント単位のオクルージョンラベルと、シーン全体で一貫性のあるトラックIDを備えたヒューマンポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2022-10-20T07:14:37Z) - Towards Rich, Portable, and Large-Scale Pedestrian Data Collection [6.250018240133604]
本研究では,多様な環境における大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。
TBDの歩行者データセットである、進行中のデータ収集作業から、最初のデータセットのバッチを紹介します。
既存の歩行者データと比較すると、我々のデータセットには3つの要素がある: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。
論文 参考訳(メタデータ) (2022-03-03T19:28:10Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。