論文の概要: Detecting Human-Object Contact in Images
- arxiv url: http://arxiv.org/abs/2303.03373v1
- Date: Mon, 6 Mar 2023 18:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 14:41:01.277388
- Title: Detecting Human-Object Contact in Images
- Title(参考訳): 画像における物体接触検出
- Authors: Yixin Chen, Sai Kumar Dwivedi, Michael J. Black, Dimitrios Tzionas
- Abstract要約: 人間は常にオブジェクトに接触し、タスクを動かします。
画像から身体とシーンの接触を検出する堅牢な方法はない。
我々は、画像のための人間と物体の接触のデータセットを新たに構築する。
- 参考スコア(独自算出の注目度): 75.35017308643471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans constantly contact objects to move and perform tasks. Thus, detecting
human-object contact is important for building human-centered artificial
intelligence. However, there exists no robust method to detect contact between
the body and the scene from an image, and there exists no dataset to learn such
a detector. We fill this gap with HOT ("Human-Object conTact"), a new dataset
of human-object contacts for images. To build HOT, we use two data sources: (1)
We use the PROX dataset of 3D human meshes moving in 3D scenes, and
automatically annotate 2D image areas for contact via 3D mesh proximity and
projection. (2) We use the V-COCO, HAKE and Watch-n-Patch datasets, and ask
trained annotators to draw polygons for the 2D image areas where contact takes
place. We also annotate the involved body part of the human body. We use our
HOT dataset to train a new contact detector, which takes a single color image
as input, and outputs 2D contact heatmaps as well as the body-part labels that
are in contact. This is a new and challenging task that extends current
foot-ground or hand-object contact detectors to the full generality of the
whole body. The detector uses a part-attention branch to guide contact
estimation through the context of the surrounding body parts and scene. We
evaluate our detector extensively, and quantitative results show that our model
outperforms baselines, and that all components contribute to better
performance. Results on images from an online repository show reasonable
detections and generalizability.
- Abstract(参考訳): 人間は常にオブジェクトに接触し、タスクを動かします。
したがって、人間中心の人工知能を構築するためには、人間と物体の接触を検出することが重要である。
しかし、画像から身体とシーンの間の接触を検出する堅牢な方法はなく、そのような検出器を学ぶためのデータセットも存在しない。
我々はこのギャップをHOT(Human-Object conTact)で埋める。
HOTを構築するには,(1)3次元メッシュのPROXデータセットを3次元のシーンで移動させ,さらに3次元メッシュの近接と投影によって接触する2次元画像領域を自動的にアノテートする。
2) V-COCO, HAKE, Watch-n-Patchデータセットを用いて, 接触する2次元画像領域のポリゴンの描画を訓練したアノテータに依頼する。
また、人体の身体部分も注釈付けします。
当社のホットデータセットを使って、新しいコンタクト検出器をトレーニングし、単一のカラーイメージを入力として、2dコンタクトヒートマップと接触しているボディパートラベルを出力します。
これは、現在の足場または手動接触検出器を全身の完全な汎用性にまで拡張する、新しくて困難なタスクである。
検知器は、接触推定を周囲の体部とシーンの文脈を通して導くために、部分接触分岐を使用する。
我々は検出器を広範囲に評価し、定量的な結果から、モデルがベースラインよりも優れており、全てのコンポーネントがより良い性能に寄与することを示した。
オンラインリポジトリの画像から得られた結果は、合理的な検出と一般化を示している。
関連論文リスト
- Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer [58.98785899556135]
本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。
本システムには,1)3次元ガイドによる接触推定と,2)接触に基づく人間と物体の微細化の2つのコア設計がある。
論文 参考訳(メタデータ) (2024-04-07T06:01:49Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。
MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。
本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文 参考訳(メタデータ) (2022-07-15T20:33:29Z) - Capturing and Inferring Dense Full-Body Human-Scene Contact [40.29636308110822]
我々は、単一のRGB画像から高密度のボディシーン接触を予測するネットワークを訓練する。
このような非局所的な関係を学習するためにトランスフォーマーを使用し、BSTRO(Body-Scene Contact TRansfOrmer)を提案する。
我々の知る限り、BSTROは1枚の画像から3Dボディシーンの接触を直接推定する最初の方法である。
論文 参考訳(メタデータ) (2022-06-20T03:31:00Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - On Self-Contact and Human Pose [50.96752167102025]
自己接触による人格推定を著しく改善する新しいデータセットと手法を開発した。
新たな自己接触トレーニングデータにより,保持されていないテストデータと既存の3DPWのようなデータセットの3次元ポーズ推定が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-04-07T15:10:38Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z) - Detailed 2D-3D Joint Representation for Human-Object Interaction [45.71407935014447]
HOI学習のための2次元3次元共同表現学習法を提案する。
まず, 単視点の人体捕捉法を用いて, 3次元体, 顔, 手の形状を詳細に把握する。
次に,3次元オブジェクトの位置と大きさを,2次元オブジェクト空間構成と対象カテゴリーの先行点から推定する。
論文 参考訳(メタデータ) (2020-04-17T10:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。