論文の概要: PICO: Reconstructing 3D People In Contact with Objects
- arxiv url: http://arxiv.org/abs/2504.17695v1
- Date: Thu, 24 Apr 2025 16:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.453692
- Title: PICO: Reconstructing 3D People In Contact with Objects
- Title(参考訳): PICO:物体と接触した3D人物の再構築
- Authors: Alpár Cseke, Shashank Tripathi, Sai Kumar Dwivedi, Arjun Lakshmipathy, Agniv Chatterjee, Michael J. Black, Dimitrios Tzionas,
- Abstract要約: 単一カラー画像から3Dヒューマンオブジェクトインタラクション(HOI)に取り組む。
PICO-dbは、自然画像の新しいデータセットで、体と物体のメッシュの両方に密接な3D接触と一意にペアリングする。
最近のDAMONデータセットの画像はコンタクトとペアリングされていますが、これらのコンタクトは標準的な3Dボディにのみアノテートされます。
PICOフィッティング(PICO-fit)と呼ばれる新しいレンダリング・アンド・コンパレート・フィッティング法を用いて,インタラクション中の3次元体とオブジェクトメッシュを復元する。
- 参考スコア(独自算出の注目度): 47.26810798870849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering 3D Human-Object Interaction (HOI) from single color images is challenging due to depth ambiguities, occlusions, and the huge variation in object shape and appearance. Thus, past work requires controlled settings such as known object shapes and contacts, and tackles only limited object classes. Instead, we need methods that generalize to natural images and novel object classes. We tackle this in two main ways: (1) We collect PICO-db, a new dataset of natural images uniquely paired with dense 3D contact on both body and object meshes. To this end, we use images from the recent DAMON dataset that are paired with contacts, but these contacts are only annotated on a canonical 3D body. In contrast, we seek contact labels on both the body and the object. To infer these given an image, we retrieve an appropriate 3D object mesh from a database by leveraging vision foundation models. Then, we project DAMON's body contact patches onto the object via a novel method needing only 2 clicks per patch. This minimal human input establishes rich contact correspondences between bodies and objects. (2) We exploit our new dataset of contact correspondences in a novel render-and-compare fitting method, called PICO-fit, to recover 3D body and object meshes in interaction. PICO-fit infers contact for the SMPL-X body, retrieves a likely 3D object mesh and contact from PICO-db for that object, and uses the contact to iteratively fit the 3D body and object meshes to image evidence via optimization. Uniquely, PICO-fit works well for many object categories that no existing method can tackle. This is crucial to enable HOI understanding to scale in the wild. Our data and code are available at https://pico.is.tue.mpg.de.
- Abstract(参考訳): 単一色画像から3Dヒューマン・オブジェクト・インタラクション(HOI)を復元することは、深度あいまいさ、オクルージョン、そして物体の形状と外観の大きな変化のために困難である。
したがって、過去の作業では、既知のオブジェクトの形状や連絡先のような制御された設定が必要であり、限られたオブジェクトクラスのみに取り組む。
代わりに、自然画像や新しいオブジェクトクラスに一般化するメソッドが必要です。
1)身体と物体のメッシュに密接な3D接触と一意に組み合わせた自然画像の新しいデータセットであるPICO-dbを収集する。
この目的のために,最新のDAMONデータセットの画像を用いて接触とペアリングするが,これらの接触は標準3次元体にのみ注釈付けされる。
対照的に、私たちは身体と物体の両方に接触ラベルを求める。
与えられた画像を推測するために、視覚基盤モデルを利用してデータベースから適切な3Dオブジェクトメッシュを検索する。
次に、DAMONのボディコンタクトパッチを1パッチあたり2クリックしか必要としない新しい方法でオブジェクトに投影する。
この最小限の人間入力は、体と物体の間のリッチな接触通信を確立する。
2) PICOフィッティングと呼ばれる新しいレンダリング・アンド・コンパレート法を用いて, 対話時の3次元体と物体メッシュの復元を行う。
PICO-fitはSMPL-Xボディの接触を推測し、3Dオブジェクトメッシュと、そのオブジェクトのPICO-dbからの接触を検索し、3Dボディとオブジェクトメッシュを反復的に適合させて、最適化によって証拠を画像化する。
PICO適合性は、既存の方法では対応できない多くのオブジェクトカテゴリでうまく機能する。
これは、HOIの理解を野生でスケールさせる上で非常に重要です。
私たちのデータとコードはhttps://pico.is.tue.mpg.de.comで公開されています。
関連論文リスト
- InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。
既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。
本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:33Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - Detecting Human-Object Contact in Images [75.35017308643471]
人間は常にオブジェクトに接触し、タスクを動かします。
画像から身体とシーンの接触を検出する堅牢な方法はない。
我々は、画像のための人間と物体の接触のデータセットを新たに構築する。
論文 参考訳(メタデータ) (2023-03-06T18:56:26Z) - Capturing and Inferring Dense Full-Body Human-Scene Contact [40.29636308110822]
我々は、単一のRGB画像から高密度のボディシーン接触を予測するネットワークを訓練する。
このような非局所的な関係を学習するためにトランスフォーマーを使用し、BSTRO(Body-Scene Contact TRansfOrmer)を提案する。
我々の知る限り、BSTROは1枚の画像から3Dボディシーンの接触を直接推定する最初の方法である。
論文 参考訳(メタデータ) (2022-06-20T03:31:00Z) - GRAB: A Dataset of Whole-Body Human Grasping of Objects [53.00728704389501]
人間の把握を理解するためのコンピュータの訓練には、複雑な3Dオブジェクトの形状、詳細な接触情報、ポーズと形状、時間の経過とともに3Dボディの動きを含む豊富なデータセットが必要である。
全身の3次元形状を含むGRABと呼ばれる新しいデータセットを収集し、形状と大きさの異なる51の日常的な物体と相互作用する10人の被験者のシーケンスを合成する。
これは、人間がオブジェクトをつかみ、操作する方法、全身がどのように関与し、どのように相互作用がタスクによって異なるかを理解するために、既存のデータセットをはるかに超えています。
論文 参考訳(メタデータ) (2020-08-25T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。