論文の概要: CHORE: Contact, Human and Object REconstruction from a single RGB image
- arxiv url: http://arxiv.org/abs/2204.02445v1
- Date: Tue, 5 Apr 2022 18:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 03:58:58.782879
- Title: CHORE: Contact, Human and Object REconstruction from a single RGB image
- Title(参考訳): CHORE:1枚のRGB画像からの接触・人間・物体再構成
- Authors: Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll
- Abstract要約: 一つの画像から人間と物体を共同で再構築する新しい手法であるCHOREを紹介する。
CHOREは、暗黙のサーフェスラーニングと古典的なモデルベースのフィッティングの最近の進歩から着想を得ている。
実データ上でより効率的な形状学習を実現するための,単純かつ効果的な深度認識スケーリングを提案する。
- 参考スコア(独自算出の注目度): 48.09958881791074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While most works in computer vision and learning have focused on perceiving
3D humans from single images in isolation, in this work we focus on capturing
3D humans interacting with objects. The problem is extremely challenging due to
heavy occlusions between human and object, diverse interaction types and depth
ambiguity. In this paper, we introduce CHORE, a novel method that learns to
jointly reconstruct human and object from a single image. CHORE takes
inspiration from recent advances in implicit surface learning and classical
model-based fitting. We compute a neural reconstruction of human and object
represented implicitly with two unsigned distance fields, and additionally
predict a correspondence field to a parametric body as well as an object pose
field. This allows us to robustly fit a parametric body model and a 3D object
template, while reasoning about interactions. Furthermore, prior pixel-aligned
implicit learning methods use synthetic data and make assumptions that are not
met in real data. We propose a simple yet effective depth-aware scaling that
allows more efficient shape learning on real data. Our experiments show that
our joint reconstruction learned with the proposed strategy significantly
outperforms the SOTA. Our code and models will be released to foster future
research in this direction.
- Abstract(参考訳): コンピュータビジョンと学習におけるほとんどの仕事は、単独の画像から3d人間を知覚することに集中しているが、本研究では、物体と相互作用する3d人間を捉えることに焦点を当てている。
この問題は、人間と物体の間の激しい閉塞、多様な相互作用タイプと深さの曖昧さのために非常に困難である。
本稿では,1つの画像から人間と物体を協調的に再構築する新しい手法であるchoreを提案する。
CHOREは、暗黙的な表面学習と古典的なモデルベースのフィッティングの最近の進歩から着想を得ている。
2つの無符号距離場で暗黙的に表現された人間と物体の神経再構成を計算し、さらにパラメトリック体と物体ポーズ場との対応フィールドを予測した。
これにより、対話を推論しながらパラメトリックなボディモデルと3Dオブジェクトテンプレートをしっかりと適合させることができる。
さらに,従来の画素アライメント型暗黙学習手法では合成データを使用し,実データに満たない仮定を行う。
実データ上でより効率的な形状学習を実現するための,単純かつ効果的な深度認識スケーリングを提案する。
実験の結果,提案手法で学習した関節再建術は sota を有意に上回っていた。
私たちのコードとモデルは、この方向への将来の研究を促進するためにリリースされます。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文 参考訳(メタデータ) (2023-12-12T08:32:55Z) - NCHO: Unsupervised Learning for Neural 3D Composition of Humans and
Objects [28.59349134574698]
実世界の3Dスキャンから人間と物体の合成生成モデルを学ぶための枠組みを提案する。
本手法では, 対象物を分解し, 自然に非教師的手法で生成的人間モデルに分解する。
論文 参考訳(メタデータ) (2023-05-23T17:59:52Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。
この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。
我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文 参考訳(メタデータ) (2020-08-10T23:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。