論文の概要: ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild
- arxiv url: http://arxiv.org/abs/2409.09319v1
- Date: Sat, 14 Sep 2024 05:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:19:23.565798
- Title: ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild
- Title(参考訳): ChildPlay-Hand: 野生のハンド操作のデータセット
- Authors: Arya Farkhondeh, Samy Tafasca, Jean-Marc Odobez,
- Abstract要約: ChildPlay-Handは、人とオブジェクトのバウンディングボックスと操作アクションを含む、新しいデータセットである。
操作アクションは、把握、保持、操作、および異なるタイプのリリースなど、HOIサイクルのメインステージをカバーする。
我々は,様々な時間的・分節ネットワークをベンチマークし,身体と手領域の情報を探索し,ポーズとRGBのモダリティを比較した。
- 参考スコア(独自算出の注目度): 11.306212771477645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-Object Interaction (HOI) is gaining significant attention, particularly with the creation of numerous egocentric datasets driven by AR/VR applications. However, third-person view HOI has received less attention, especially in terms of datasets. Most third-person view datasets are curated for action recognition tasks and feature pre-segmented clips of high-level daily activities, leaving a gap for in-the-wild datasets. To address this gap, we propose ChildPlay-Hand, a novel dataset that includes person and object bounding boxes, as well as manipulation actions. ChildPlay-Hand is unique in: (1) providing per-hand annotations; (2) featuring videos in uncontrolled settings with natural interactions, involving both adults and children; (3) including gaze labels from the ChildPlay-Gaze dataset for joint modeling of manipulations and gaze. The manipulation actions cover the main stages of an HOI cycle, such as grasping, holding or operating, and different types of releasing. To illustrate the interest of the dataset, we study two tasks: object in hand detection (OiH), i.e. if a person has an object in their hand, and manipulation stages (ManiS), which is more fine-grained and targets the main stages of manipulation. We benchmark various spatio-temporal and segmentation networks, exploring body vs. hand-region information and comparing pose and RGB modalities. Our findings suggest that ChildPlay-Hand is a challenging new benchmark for modeling HOI in the wild.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)は特にAR/VRアプリケーションによって駆動される多数のエゴセントリックデータセットの作成によって注目されている。
しかし、3人称視点 HOI は特にデータセットに関してあまり注目されていない。
ほとんどの3人称ビューデータセットは、アクション認識タスクのためにキュレーションされ、高レベルな日々のアクティビティのプレセグメンテーションされたクリップが特徴であり、Wild内のデータセットのギャップを残している。
このギャップに対処するために、人とオブジェクトのバウンディングボックスと操作アクションを含む新しいデータセットであるChildPlay-Handを提案する。
ChildPlay-Handは、(1)手書きアノテーションの提供、(2)大人と子供の両方が関係する、コントロールされていない設定で動画を特徴付けること、(3)操作と視線を共同でモデル化するためのChildPlay-Gazeデータセットからの視線ラベルを含む。
操作アクションは、把握、保持、操作、および異なるタイプのリリースなど、HOIサイクルのメインステージをカバーする。
本研究は,手指検出(OiH)と操作段階(ManiS)の2つの課題について考察する。
様々な時空間ネットワークと分節ネットワークをベンチマークし、身体と手領域情報を探索し、ポーズとRGBのモダリティを比較した。
以上の結果から,ChildPlay-HandはHOIをモデル化する上で,新たなベンチマークとなることが示唆された。
関連論文リスト
- HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild [21.54235700930195]
HOIST-Formerは、互いに特徴を反復的にプーリングすることで、空間的および時間的に手や物体を分割することができる。
HOISTは4,125本のビデオで,有界ボックス,セグメンテーションマスク,ハンドヘルドオブジェクトのIDを追跡する。
論文 参考訳(メタデータ) (2024-04-22T01:42:45Z) - ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour [18.885623017619988]
本研究は、子どもの視線目標と相互作用する大人の視線目標を予測するための最初の研究である。
コントロールされていない環境で大人と遊んだり、交流したりした子どもたちを対象とする、短いビデオクリップのキュレートされたコレクションであるChildPlayデータセットを紹介した。
本研究では,3次元視野におけるシーン部分を明確に識別することで,幾何学的にグラウンド化された視線目標予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-07-04T10:26:53Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。