Fugu-MT 論文翻訳(概要): Realistic Clothed Human and Object Joint Reconstruction from a Single Image

論文の概要: Realistic Clothed Human and Object Joint Reconstruction from a Single Image

arxiv url: http://arxiv.org/abs/2502.18150v2
Date: Sat, 08 Mar 2025 12:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:06.50404
Title: Realistic Clothed Human and Object Joint Reconstruction from a Single Image
Title（参考訳）: 単体画像からのリアルな衣服と物体の関節再建
Authors: Ayushi Dutta, Marco Pesavento, Marco Volino, Adrian Hilton, Armin Mustafa,
Abstract要約: モノクラービューからリアルな3D衣服と物体を共同で再構築するための新しい暗黙のアプローチを導入する。初めて、私たちは暗黙の表現で人間と物体の両方をモデル化し、衣服のようなより現実的な詳細を捉えます。
参考スコア（独自算出の注目度）: 26.57698106821237
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent approaches to jointly reconstruct 3D humans and objects from a single RGB image represent 3D shapes with template-based or coarse models, which fail to capture details of loose clothing on human bodies. In this paper, we introduce a novel implicit approach for jointly reconstructing realistic 3D clothed humans and objects from a monocular view. For the first time, we model both the human and the object with an implicit representation, allowing to capture more realistic details such as clothing. This task is extremely challenging due to human-object occlusions and the lack of 3D information in 2D images, often leading to poor detail reconstruction and depth ambiguity. To address these problems, we propose a novel attention-based neural implicit model that leverages image pixel alignment from both the input human-object image for a global understanding of the human-object scene and from local separate views of the human and object images to improve realism with, for example, clothing details. Additionally, the network is conditioned on semantic features derived from an estimated human-object pose prior, which provides 3D spatial information about the shared space of humans and objects. To handle human occlusion caused by objects, we use a generative diffusion model that inpaints the occluded regions, recovering otherwise lost details. For training and evaluation, we introduce a synthetic dataset featuring rendered scenes of inter-occluded 3D human scans and diverse objects. Extensive evaluation on both synthetic and real-world datasets demonstrates the superior quality of the proposed human-object reconstructions over competitive methods.
Abstract（参考訳）: 一つのRGB画像から3Dの人間とオブジェクトを共同で再構築する最近のアプローチは、テンプレートベースまたは粗いモデルで3Dの形状を表現している。本稿では,モノラルな視点からリアルな3D衣服と物体を共同で再構築するための,新しい暗黙的アプローチを提案する。初めて、私たちは暗黙の表現で人間と物体の両方をモデル化し、衣服のようなより現実的な詳細を捉えます。この課題は、人間の物体の閉塞と2D画像に3D情報がないために非常に困難であり、しばしば詳細な再構築や奥行きの曖昧さに繋がる。これらの問題に対処するために,入力された人オブジェクト画像から人オブジェクトシーンをグローバルに理解するための画像画素アライメントと,人オブジェクト画像と物体画像の局所的な分離ビューを併用して,例えば衣料品の詳細などの現実性を改善する,新たな注目ベースのニューラル暗黙モデルを提案する。さらに,人間と物体の共有空間に関する3次元空間情報を提供する,推定された対象のポーズから導かれる意味的特徴に基づいてネットワークを条件付けする。対象物によるヒトの閉塞に対処するために,隠蔽領域にペンキを塗布し,失明した詳細を復元する生成拡散モデルを用いる。トレーニングと評価のために,3次元人間間スキャンと多種多様な物体の描画シーンを特徴とする合成データセットを提案する。人工的および実世界の両方のデータセットに対する広範囲な評価は、競合する手法よりも提案された人間オブジェクト再構成の優れた品質を示す。

関連論文リスト

Single-image coherent reconstruction of objects and humans [16.836684199314938]
モノクル画像から物体や人間を再構成する既存の方法は、激しいメッシュ衝突と性能制限に悩まされている。本稿では,1つの画像から対話対象と人物を相互に一貫した3次元再構成する手法を提案する。
論文参考訳（メタデータ） (2024-08-15T11:27:18Z)
Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer [58.98785899556135]
本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。本システムには,1)3次元ガイドによる接触推定と,2)接触に基づく人間と物体の微細化の2つのコア設計がある。
論文参考訳（メタデータ） (2024-04-07T06:01:49Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。 CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。 HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文参考訳（メタデータ） (2022-12-20T19:50:54Z)
Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文参考訳（メタデータ） (2022-09-06T13:32:55Z)
CHORE: Contact, Human and Object REconstruction from a single RGB image [40.817960406002506]
CHOREは、1枚のRGB画像から人間と物体を共同で再構築する方法である。 2つの符号のない距離場で暗黙的に表現された人間と物体の神経再構成を計算する。提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
論文参考訳（メタデータ） (2022-04-05T18:38:06Z)
Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2022-03-07T18:59:02Z)
3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。 DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2021-12-02T17:10:53Z)
Neural Free-Viewpoint Performance Rendering under Complex Human-object Interactions [35.41116017268475]
没入型VR/AR体験と人間の活動理解には,人間と物体の相互作用の4次元再構築が不可欠である。近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。本研究では,人間と物体の高画質なテクスチャとフォトリアリスティックなテクスチャを両立させるニューラル・ヒューマン・パフォーマンス・キャプチャー・レンダリングシステムを提案する。
論文参考訳（メタデータ） (2021-08-01T04:53:54Z)
Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文参考訳（メタデータ） (2021-06-25T13:32:23Z)
Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文参考訳（メタデータ） (2021-04-19T13:21:55Z)
Holistic 3D Human and Scene Mesh Estimation from Single View Images [5.100152971410397]
本稿では,1枚のRGB画像から3Dシーンを知覚するエンド・ツー・エンドのトレーニング可能なモデルを提案する。本研究では,既存の人体メッシュ法や屋内シーン再構築法よりも優れた性能を示す。
論文参考訳（メタデータ） (2020-12-02T23:22:03Z)
Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文参考訳（メタデータ） (2020-07-30T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。