論文の概要: JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection
- arxiv url: http://arxiv.org/abs/2106.08827v1
- Date: Wed, 16 Jun 2021 14:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-17 17:20:58.855042
- Title: JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection
- Title(参考訳): JRDB-Act:時空間行動・社会集団・活動検出のための大規模マルチモーダルデータセット
- Authors: Mahsa Ehsanpour, Fatemeh Saleh, Silvio Savarese, Ian Reid, Hamid
Rezatofighi
- Abstract要約: 大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
- 参考スコア(独自算出の注目度): 54.696819174421584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of large-scale video action understanding datasets has
facilitated advances in the interpretation of visual scenes containing people.
However, learning to recognize human activities in an unconstrained real-world
environment, with potentially highly unbalanced and long-tailed distributed
data remains a significant challenge, not least owing to the lack of a
reflective large-scale dataset. Most existing large-scale datasets are either
collected from a specific or constrained environment, e.g. kitchens or rooms,
or video sharing platforms such as YouTube. In this paper, we introduce
JRDB-Act, a multi-modal dataset, as an extension of the existing JRDB, which is
captured by asocial mobile manipulator and reflects a real distribution of
human daily life actions in a university campus environment. JRDB-Act has been
densely annotated with atomic actions, comprises over 2.8M action labels,
constituting a large-scale spatio-temporal action detection dataset. Each human
bounding box is labelled with one pose-based action label and multiple
(optional) interaction-based action labels. Moreover JRDB-Act comes with social
group identification annotations conducive to the task of grouping individuals
based on their interactions in the scene to infer their social activities
(common activities in each social group).
- Abstract(参考訳): 大規模ビデオアクション理解データセットの可用性は、人を含む視覚シーンの解釈の進歩を促した。
しかし、高度にバランスのとれたロングテールの分散データを持つ、訓練されていない実世界環境で人間の活動を認識することの学習は、特に反射型大規模データセットの欠如のために、重要な課題である。
既存の大規模データセットの多くは、特定の環境や制約のある環境から収集される。
キッチンや部屋、YouTubeのようなビデオ共有プラットフォーム。
本稿では,大学構内における生活行動の実際の分布を反映した,既存のJRDBの拡張として,マルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actは280万以上のアクションラベルから構成され、大規模な時空間行動検出データセットを構成する。
各人間のバウンディングボックスには、1つのポーズベースのアクションラベルと複数の(オプションの)インタラクションベースのアクションラベルがラベルされている。
さらに、JRDB-Actには、現場での交流に基づいて個人をグループ化し、社会的活動(各社会集団の共通活動)を推測するソーシャルグループ識別アノテーションが付属している。
関連論文リスト
- DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos [110.98100817695307]
私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
論文 参考訳(メタデータ) (2026-02-06T18:49:43Z) - JRDB-Pose3D: A Multi-person 3D Human Pose and Shape Estimation Dataset for Robotics [15.188501869677532]
JRDB-Pose3Dは、モバイルロボットプラットフォームから、屋内および屋外のマルチヒューマン環境をキャプチャする。
JRDB-Pose3Dには、平均して1フレームあたり5~10人のポーズがあり、最大35人の人物が同時に登場するシーンもある。
論文 参考訳(メタデータ) (2026-02-03T03:46:27Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups [8.415759777703125]
JRDB-Socialは、屋内・屋外の多様な社会的文脈における人間の理解のギャップを埋める。
このデータセットは、ロボットアプリケーションのための人間の社会的ダイナミクスの把握を強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-06T00:33:39Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - JRDB-Pose: A Large-scale Dataset for Multi-Person Pose Estimation and
Tracking [6.789370732159177]
マルチパーソンポーズ推定と追跡のための大規模データセットであるJRDB-Poseを紹介する。
データセットには、屋内と屋外の混雑したチャレンジシーンが含まれています。
JRDB-Poseは、キーポイント単位のオクルージョンラベルと、シーン全体で一貫性のあるトラックIDを備えたヒューマンポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2022-10-20T07:14:37Z) - Towards Rich, Portable, and Large-Scale Pedestrian Data Collection [6.250018240133604]
本研究では,多様な環境における大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。
TBDの歩行者データセットである、進行中のデータ収集作業から、最初のデータセットのバッチを紹介します。
既存の歩行者データと比較すると、我々のデータセットには3つの要素がある: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。
論文 参考訳(メタデータ) (2022-03-03T19:28:10Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。