論文の概要: The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose
- arxiv url: http://arxiv.org/abs/2007.00394v2
- Date: Wed, 17 May 2023 07:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 21:36:04.477137
- Title: The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose
- Title(参考訳): IKEA ASMデータセット:アクション、オブジェクト、詩を通じて家具を組み立てる人々の理解
- Authors: Yizhak Ben-Shabat, Xin Yu, Fatemeh Sadat Saleh, Dylan Campbell,
Cristian Rodriguez-Opazo, Hongdong Li, Stephen Gould
- Abstract要約: IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
- 参考スコア(独自算出の注目度): 108.21037046507483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of a large labeled dataset is a key requirement for applying
deep learning methods to solve various computer vision tasks. In the context of
understanding human activities, existing public datasets, while large in size,
are often limited to a single RGB camera and provide only per-frame or per-clip
action annotations. To enable richer analysis and understanding of human
activities, we introduce IKEA ASM -- a three million frame, multi-view,
furniture assembly video dataset that includes depth, atomic actions, object
segmentation, and human pose. Additionally, we benchmark prominent methods for
video action recognition, object segmentation and human pose estimation tasks
on this challenging dataset. The dataset enables the development of holistic
methods, which integrate multi-modal and multi-view data to better perform on
these tasks.
- Abstract(参考訳): 大規模ラベル付きデータセットの可用性は、さまざまなコンピュータビジョンタスクを解決するためにディープラーニングメソッドを適用する上で重要な要件である。
人間の活動を理解するという文脈では、既存の公開データセットはサイズが大きいが、しばしば単一のrgbカメラに限定され、フレーム単位またはクリップ単位のアクションアノテーションのみを提供する。
人間の活動に関するよりリッチな分析と理解を可能にするために、我々は、深さ、原子アクション、オブジェクトのセグメンテーション、人間のポーズを含む、300万フレーム、マルチビュー、家具組み立てビデオデータセットであるikea asmを紹介します。
さらに,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定といった重要な手法をベンチマークする。
データセットは、マルチモーダルおよびマルチビューデータを統合して、これらのタスクをより良く実行する、総合的な方法の開発を可能にする。
関連論文リスト
- ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Weakly Supervised Multi-Task Representation Learning for Human Activity
Analysis Using Wearables [2.398608007786179]
本稿では,データを複数の表現空間にマッピングする方法を学習する,弱教師付きマルチ出力シムネットワークを提案する。
データサンプルの表現は、そのアスペクトで同じ意味を持つデータが互いに密接な位置にあるような空間に配置される。
論文 参考訳(メタデータ) (2023-08-06T08:20:07Z) - HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly
Knowledge Understanding [5.233797258148846]
HA-ViDは、代表的な産業組み立てシナリオを特徴とする、最初のヒューマンアセンブリビデオデータセットである。
我々は,3222のマルチビュー,マルチモダリティビデオ(各ビデオは1つの組立タスクを含む),1.5Mフレーム,96K時間ラベル,2M空間ラベルを提供する。
我々は、アクション認識、アクションセグメンテーション、オブジェクト検出、マルチオブジェクトトラッキングの4つの基本的なビデオ理解タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-07-09T08:44:46Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。