論文の概要: Assembly101: A Large-Scale Multi-View Video Dataset for Understanding
Procedural Activities
- arxiv url: http://arxiv.org/abs/2203.14712v1
- Date: Mon, 28 Mar 2022 12:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:25:59.234777
- Title: Assembly101: A Large-Scale Multi-View Video Dataset for Understanding
Procedural Activities
- Title(参考訳): Assembly101: 手続き活動を理解するための大規模マルチビュービデオデータセット
- Authors: Fadime Sener and Dibyadip Chatterjee and Daniel Shelepov and Kun He
and Dipika Singhania and Robert Wang and Angela Yao
- Abstract要約: Assembly101は、4321人の人々が101台の「テイク・アパルト」のおもちゃを組み立てて分解する、新しいプロシージャ活動データセットである。
参加者は固定命令なしで作業し、シーケンスはアクション順序、ミス、修正のリッチで自然なバリエーションを特徴とする。
シーケンスには100K以上の粗い部分と1Mのきめ細かいアクションセグメントと18Mの3Dハンドポーズがアノテートされている。
- 参考スコア(独自算出の注目度): 29.05606394634704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assembly101 is a new procedural activity dataset featuring 4321 videos of
people assembling and disassembling 101 "take-apart" toy vehicles. Participants
work without fixed instructions, and the sequences feature rich and natural
variations in action ordering, mistakes, and corrections. Assembly101 is the
first multi-view action dataset, with simultaneous static (8) and egocentric
(4) recordings. Sequences are annotated with more than 100K coarse and 1M
fine-grained action segments, and 18M 3D hand poses. We benchmark on three
action understanding tasks: recognition, anticipation and temporal
segmentation. Additionally, we propose a novel task of detecting mistakes. The
unique recording format and rich set of annotations allow us to investigate
generalization to new toys, cross-view transfer, long-tailed distributions, and
pose vs. appearance. We envision that Assembly101 will serve as a new challenge
to investigate various activity understanding problems.
- Abstract(参考訳): assembly101は、4321人の人々のビデオが101台の「テイク・アパルト」玩具を組み立て、分解する新しい手続き行動データセットである。
参加者は固定命令なしで作業し、シーケンスはアクション順序、ミス、修正のリッチで自然なバリエーションを特徴とする。
assembly101は、最初のマルチビューアクションデータセットで、静的(8)とエゴセントリック(4)レコードを同時に記録する。
配列は100k以上の粗いアクションセグメントと1mの細粒度アクションセグメント、および18mの3dハンドポーズでアノテートされる。
我々は、認識、予測、時間的セグメンテーションの3つの行動理解タスクをベンチマークする。
また,誤りを検出する新しい課題を提案する。
ユニークな記録フォーマットと豊富なアノテーションセットにより、新しいおもちゃへの一般化、クロスビュー転送、ロングテール分布、ポーズ対外観を調査できる。
我々は、assembly101が様々な活動理解問題の新たな課題となることを想定している。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - CaptainCook4D: A Dataset for Understanding Errors in Procedural Activities [12.38265411170993]
新しいエゴセントリックな4DデータセットであるCaptainCook4Dは、実際のキッチン環境でレシピを実行する人々の384の録音(94.5時間)で構成されています。
このデータセットは、2つの異なるタイプのアクティビティで構成されている。1つは参加者が提供されたレシピの指示に従属し、もう1つはエラーを逸脱し誘発する。
論文 参考訳(メタデータ) (2023-12-22T09:29:45Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Every Mistake Counts in Assembly [26.903961683742494]
学習知識ベースを利用して注文ミスを検出するシステムを提案する。
本フレームワークは,観察された誤りに基づく空間的,時間的信念に基づく知識基盤を構築する。
本研究では, 実世界の行動系列において, 空間的, 時間的信念が誤った順序を識別できることを実験的に実証した。
論文 参考訳(メタデータ) (2023-07-31T07:20:31Z) - HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly
Knowledge Understanding [5.233797258148846]
HA-ViDは、代表的な産業組み立てシナリオを特徴とする、最初のヒューマンアセンブリビデオデータセットである。
我々は,3222のマルチビュー,マルチモダリティビデオ(各ビデオは1つの組立タスクを含む),1.5Mフレーム,96K時間ラベル,2M空間ラベルを提供する。
我々は、アクション認識、アクションセグメンテーション、オブジェクト検出、マルチオブジェクトトラッキングの4つの基本的なビデオ理解タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-07-09T08:44:46Z) - Aligning Step-by-Step Instructional Diagrams to Video Demonstrations [51.67930509196712]
組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-03-24T04:45:45Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Rescaling Egocentric Vision [48.57283024015145]
本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
論文 参考訳(メタデータ) (2020-06-23T18:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。