論文の概要: FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human
Interaction Analysis
- arxiv url: http://arxiv.org/abs/2209.10155v1
- Date: Wed, 21 Sep 2022 07:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:28:07.841684
- Title: FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human
Interaction Analysis
- Title(参考訳): FT-HID:1人3人インタラクション分析のための大規模RGB-Dデータセット
- Authors: Zihui Guo, Yonghong Hou, Pichao Wang, Zhimin Gao, Mingliang Xu, and
Wanqing Li
- Abstract要約: 我々は、視覚対応の大規模ヒューマンインタラクションデータセット、すなわちFT-HIDデータセットにコントリビュートする。
FT-HIDは、第一人物と第三人物の視力のペアのサンプルを含む。
本稿では,骨格配列に対する新しい多視点インタラクション機構と,第1者および第3者ビジョンのための共同学習型マルチストリームフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.03980813525517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analysis of human interaction is one important research topic of human motion
analysis. It has been studied either using first person vision (FPV) or third
person vision (TPV). However, the joint learning of both types of vision has so
far attracted little attention. One of the reasons is the lack of suitable
datasets that cover both FPV and TPV. In addition, existing benchmark datasets
of either FPV or TPV have several limitations, including the limited number of
samples, participant subjects, interaction categories, and modalities. In this
work, we contribute a large-scale human interaction dataset, namely, FT-HID
dataset. FT-HID contains pair-aligned samples of first person and third person
visions. The dataset was collected from 109 distinct subjects and has more than
90K samples for three modalities. The dataset has been validated by using
several existing action recognition methods. In addition, we introduce a novel
multi-view interaction mechanism for skeleton sequences, and a joint learning
multi-stream framework for first person and third person visions. Both methods
yield promising results on the FT-HID dataset. It is expected that the
introduction of this vision-aligned large-scale dataset will promote the
development of both FPV and TPV, and their joint learning techniques for human
action analysis. The dataset and code are available at
\href{https://github.com/ENDLICHERE/FT-HID}{here}.
- Abstract(参考訳): ヒューマンインタラクションの分析は、人間の動作分析の重要な研究テーマである。
first person vision (fpv) または third person vision (tpv) を用いて研究されている。
しかし、両視覚の合同学習は、今のところほとんど注目されていない。
理由のひとつは、FPVとTPVの両方をカバーする適切なデータセットがないことだ。
さらに、既存のFPVまたはTPVのベンチマークデータセットには、サンプル数、対象者、相互作用カテゴリ、モダリティなど、いくつかの制限がある。
本研究では,大規模なヒューマンインタラクションデータセットであるFT-HIDデータセットにコントリビュートする。
FT-HIDは、第一人物と第三人物の視力のペアのサンプルを含む。
データセットは109の異なる被験者から収集され、3つのモダリティに対して90K以上のサンプルを持つ。
データセットは、いくつかの既存のアクション認識手法を使用して検証されている。
さらに,スケルトン配列のための新しい多視点インタラクション機構と,第1者および第3者視覚のための共同学習型マルチストリームフレームワークを導入する。
両手法はFT-HIDデータセット上で有望な結果をもたらす。
このビジョン整合型大規模データセットの導入は、FPVとTPVの両方の開発と、人間の行動分析のための共同学習技術の発展を促進することが期待されている。
データセットとコードは \href{https://github.com/ENDLICHERE/FT-HID}{here} で公開されている。
関連論文リスト
- PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning [29.037799937729687]
2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-24T21:55:34Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。