論文の概要: Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild
- arxiv url: http://arxiv.org/abs/2007.15649v2
- Date: Wed, 19 Aug 2020 20:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:36:23.141285
- Title: Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild
- Title(参考訳): 野生の単一画像からの3次元物体空間配置の知覚
- Authors: Jason Y. Zhang and Sam Pepose and Hanbyul Joo and Deva Ramanan and
Jitendra Malik and Angjoo Kanazawa
- Abstract要約: 本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
- 参考スコア(独自算出の注目度): 96.08358373137438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method that infers spatial arrangements and shapes of humans and
objects in a globally consistent 3D scene, all from a single image in-the-wild
captured in an uncontrolled environment. Notably, our method runs on datasets
without any scene- or object-level 3D supervision. Our key insight is that
considering humans and objects jointly gives rise to "3D common sense"
constraints that can be used to resolve ambiguity. In particular, we introduce
a scale loss that learns the distribution of object size from data; an
occlusion-aware silhouette re-projection loss to optimize object pose; and a
human-object interaction loss to capture the spatial layout of objects with
which humans interact. We empirically validate that our constraints
dramatically reduce the space of likely 3D spatial configurations. We
demonstrate our approach on challenging, in-the-wild images of humans
interacting with large objects (such as bicycles, motorcycles, and surfboards)
and handheld objects (such as laptops, tennis rackets, and skateboards). We
quantify the ability of our approach to recover human-object arrangements and
outline remaining challenges in this relatively domain. The project webpage can
be found at https://jasonyzhang.com/phosa.
- Abstract(参考訳): 制御不能な環境下で撮影された単一の画像から、グローバルに一貫した3Dシーンにおける人間と物体の空間配置と形状を推定する手法を提案する。
特に,本手法はシーンレベルの3D監視を伴わないデータセットで動作する。
私たちの重要な洞察は、人間と物体を共同で考えると、曖昧さを解決するために使用できる「3d common sense」の制約が生じるということです。
特に,データから物体サイズの分布を学習するスケール損失,物体のポーズを最適化するためのオクルージョンアウェアシルエット再投影損失,人間の相互作用する物体の空間配置をキャプチャするヒューマン・オブジェクト間インタラクション損失について紹介する。
私たちの制約は、おそらく3d空間構成の空間を劇的に削減できることを実証的に検証します。
我々は、大型物体(自転車、オートバイ、サーフボードなど)やハンドヘルド物体(ラップトップ、テニスラケット、スケートボードなど)と対話する人間の挑戦的で、野生のイメージに対する我々のアプローチを実証する。
我々は、人間とオブジェクトのアレンジメントを回復するアプローチの能力を定量化し、この相対的な領域に残る課題を概説する。
プロジェクトのWebページはhttps://jasonyzhang.com/phosa.comにある。
関連論文リスト
- Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - FLEX: Full-Body Grasping Without Full-Body Grasps [24.10724524386518]
我々は,日常の物体を把握し,人間の手と全身を仮想的に生成するタスクに対処する。
既存の方法では、オブジェクトと対話する人間の3Dデータセットを収集し、このデータに基づいてトレーニングすることで、この問題に対処する。
フルボディのポーズとハンドグルーピングの両方の存在を活用し、3次元幾何学的制約を用いて構成し、フルボディのグルーピングを得る。
論文 参考訳(メタデータ) (2022-11-21T23:12:54Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time [22.574069344246052]
本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。
提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
論文 参考訳(メタデータ) (2021-06-09T17:59:34Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。