論文の概要: CHORE: Contact, Human and Object REconstruction from a single RGB image
- arxiv url: http://arxiv.org/abs/2204.02445v3
- Date: Tue, 31 Oct 2023 16:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:55:08.914694
- Title: CHORE: Contact, Human and Object REconstruction from a single RGB image
- Title(参考訳): CHORE:1枚のRGB画像からの接触・人間・物体再構成
- Authors: Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll
- Abstract要約: CHOREは、1枚のRGB画像から人間と物体を共同で再構築する方法である。
2つの符号のない距離場で暗黙的に表現された人間と物体の神経再構成を計算する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
- 参考スコア(独自算出の注目度): 40.817960406002506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most prior works in perceiving 3D humans from images reason human in
isolation without their surroundings. However, humans are constantly
interacting with the surrounding objects, thus calling for models that can
reason about not only the human but also the object and their interaction. The
problem is extremely challenging due to heavy occlusions between humans and
objects, diverse interaction types and depth ambiguity. In this paper, we
introduce CHORE, a novel method that learns to jointly reconstruct the human
and the object from a single RGB image. CHORE takes inspiration from recent
advances in implicit surface learning and classical model-based fitting. We
compute a neural reconstruction of human and object represented implicitly with
two unsigned distance fields, a correspondence field to a parametric body and
an object pose field. This allows us to robustly fit a parametric body model
and a 3D object template, while reasoning about interactions. Furthermore,
prior pixel-aligned implicit learning methods use synthetic data and make
assumptions that are not met in the real data. We propose a elegant depth-aware
scaling that allows more efficient shape learning on real data. Experiments
show that our joint reconstruction learned with the proposed strategy
significantly outperforms the SOTA. Our code and models are available at
https://virtualhumans.mpi-inf.mpg.de/chore
- Abstract(参考訳): ほとんどの先行研究は、周囲の環境なしに人間を孤立させるイメージから3d人間を知覚する。
しかし、人間は周囲の物体と常に相互作用しているため、人間だけでなく物体やそれらの相互作用を推論できるモデルを求める。
この問題は、人間と物体の密接な閉塞、多様な相互作用タイプ、深さのあいまいさによって非常に難しい。
本稿では,1枚のRGB画像から人間と物体を共同で再構築する新しい手法であるCHOREを紹介する。
CHOREは、暗黙的な表面学習と古典的なモデルベースのフィッティングの最近の進歩から着想を得ている。
2つの無符号距離場、パラメトリック体への対応場、および物体ポーズ場で暗黙的に表現された人間と物体の神経再構築を計算する。
これにより、対話を推論しながらパラメトリックなボディモデルと3Dオブジェクトテンプレートをしっかりと適合させることができる。
さらに,従来の画素アライメント型暗黙学習手法では合成データを使用し,実データに満たない仮定を行う。
実データ上でより効率的な形状学習を可能にするエレガントな深度対応スケーリングを提案する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
私たちのコードとモデルはhttps://virtualhumans.mpi-inf.mpg.de/choreで利用可能です。
関連論文リスト
- Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文 参考訳(メタデータ) (2023-12-12T08:32:55Z) - NCHO: Unsupervised Learning for Neural 3D Composition of Humans and
Objects [28.59349134574698]
実世界の3Dスキャンから人間と物体の合成生成モデルを学ぶための枠組みを提案する。
本手法では, 対象物を分解し, 自然に非教師的手法で生成的人間モデルに分解する。
論文 参考訳(メタデータ) (2023-05-23T17:59:52Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。
この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。
我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文 参考訳(メタデータ) (2020-08-10T23:08:26Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。