論文の概要: Detailed 2D-3D Joint Representation for Human-Object Interaction
- arxiv url: http://arxiv.org/abs/2004.08154v2
- Date: Thu, 21 May 2020 04:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:49:31.493886
- Title: Detailed 2D-3D Joint Representation for Human-Object Interaction
- Title(参考訳): 人-物体相互作用のための詳細2次元3次元関節表現
- Authors: Yong-Lu Li, Xinpeng Liu, Han Lu, Shiyi Wang, Junqi Liu, Jiefeng Li,
Cewu Lu
- Abstract要約: HOI学習のための2次元3次元共同表現学習法を提案する。
まず, 単視点の人体捕捉法を用いて, 3次元体, 顔, 手の形状を詳細に把握する。
次に,3次元オブジェクトの位置と大きさを,2次元オブジェクト空間構成と対象カテゴリーの先行点から推定する。
- 参考スコア(独自算出の注目度): 45.71407935014447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection lies at the core of action
understanding. Besides 2D information such as human/object appearance and
locations, 3D pose is also usually utilized in HOI learning since its
view-independence. However, rough 3D body joints just carry sparse body
information and are not sufficient to understand complex interactions. Thus, we
need detailed 3D body shape to go further. Meanwhile, the interacted object in
3D is also not fully studied in HOI learning. In light of these, we propose a
detailed 2D-3D joint representation learning method. First, we utilize the
single-view human body capture method to obtain detailed 3D body, face and hand
shapes. Next, we estimate the 3D object location and size with reference to the
2D human-object spatial configuration and object category priors. Finally, a
joint learning framework and cross-modal consistency tasks are proposed to
learn the joint HOI representation. To better evaluate the 2D ambiguity
processing capacity of models, we propose a new benchmark named Ambiguous-HOI
consisting of hard ambiguous images. Extensive experiments in large-scale HOI
benchmark and Ambiguous-HOI show impressive effectiveness of our method. Code
and data are available at https://github.com/DirtyHarryLYL/DJ-RN.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(HOI)検出は行動理解の核心にある。
人間や物体の外観や位置などの2D情報に加えて、3DポーズはHOI学習で一般的に使用される。
しかし、粗い3Dボディジョイントはスパースボディ情報しか持たず、複雑な相互作用を理解するには不十分である。
そのため、さらに詳細な3dボディ形状が必要となる。
一方、3Dの相互作用対象はHOI学習では十分に研究されていない。
これらを踏まえ,詳細な2次元3次元表現学習法を提案する。
まず, 単視点人体撮影法を用いて, 3次元体, 顔, 手の形状を詳細に把握する。
次に,3次元オブジェクトの位置と大きさを,2次元オブジェクト空間構成と対象カテゴリーの先行点から推定する。
最後に,共同学習フレームワークとクロスモーダル整合性タスクを提案し,HOI表現を学習する。
モデルの2次元曖昧性処理能力をよりよく評価するために,硬明な画像からなるAmbiguous-HOIという新しいベンチマークを提案する。
大規模HOIベンチマークとAmbiguous-HOIの大規模な実験により,本手法の有効性が示された。
コードとデータはhttps://github.com/dirtyharrylyl/dj-rnで入手できる。
関連論文リスト
- CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - GRAB: A Dataset of Whole-Body Human Grasping of Objects [53.00728704389501]
人間の把握を理解するためのコンピュータの訓練には、複雑な3Dオブジェクトの形状、詳細な接触情報、ポーズと形状、時間の経過とともに3Dボディの動きを含む豊富なデータセットが必要である。
全身の3次元形状を含むGRABと呼ばれる新しいデータセットを収集し、形状と大きさの異なる51の日常的な物体と相互作用する10人の被験者のシーケンスを合成する。
これは、人間がオブジェクトをつかみ、操作する方法、全身がどのように関与し、どのように相互作用がタスクによって異なるかを理解するために、既存のデータセットをはるかに超えています。
論文 参考訳(メタデータ) (2020-08-25T17:57:55Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z) - Parameter-Efficient Person Re-identification in the 3D Space [51.092669618679615]
我々は3次元空間に2D画像を投影し、新しいパラメータ効率のOmniスケールグラフネットワーク(OG-Net)を導入し、3次元点雲から直接歩行者表現を学習する。
OG-Netはスパース3Dポイントが提供するローカル情報を効果的に活用し、その構造と外観情報を一貫性のある方法で活用する。
私たちは3D空間における人物の再識別を行う最初の試みの1つです。
論文 参考訳(メタデータ) (2020-06-08T13:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。