論文の概要: Pi-HOC: Pairwise 3D Human-Object Contact Estimation
- arxiv url: http://arxiv.org/abs/2604.12923v1
- Date: Tue, 14 Apr 2026 16:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.554528
- Title: Pi-HOC: Pairwise 3D Human-Object Contact Estimation
- Title(参考訳): Pi-HOC:Pairwise 3D Human-Object Contact Estimation
- Authors: Sravan Chittupalli, Ayush Jain, Dong Huang,
- Abstract要約: 我々は,全オブジェクト対の高密度な3次元セマンティックコンタクト予測のための,シングルパスのインスタンス認識フレームワークPi-HOCを紹介する。
MMHOIとDAMONのデータセットでは、Pi-HOCは最先端の手法よりも精度とローカライゼーションを大幅に向上する。
- 参考スコア(独自算出の注目度): 7.664024915888174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resolving real-world human-object interactions in images is a many-to-many challenge, in which disentangling fine-grained concurrent physical contact is particularly difficult. Existing semantic contact estimation methods are either limited to single-human settings or require object geometries (e.g., meshes) in addition to the input image. Current state-of-the-art leverages powerful VLM for category-level semantics but struggles with multi-human scenarios and scales poorly in inference. We introduce Pi-HOC, a single-pass, instance-aware framework for dense 3D semantic contact prediction of all human-object pairs. Pi-HOC detects instances, creates dedicated human-object (HO) tokens for each pair, and refines them using an InteractionFormer. A SAM-based decoder then predicts dense contact on SMPL human meshes for each human-object pair. On the MMHOI and DAMON datasets, Pi-HOC significantly improves accuracy and localization over state-of-the-art methods while achieving 20x higher throughput. We further demonstrate that predicted contacts improve SAM-3D image-to-mesh reconstruction via a test-time optimization algorithm and enable referential contact prediction from language queries without additional training.
- Abstract(参考訳): 画像における現実世界の人間と物体の相互作用を解決することは、細粒度の物理的接触を解消することが特に困難である、多対多の課題である。
既存のセマンティックコンタクト推定手法は、入力画像に加えて、単一人間の設定に制限されるか、オブジェクトジオメトリ(例えばメッシュ)を必要とする。
現在の最先端技術は、カテゴリレベルのセマンティクスに強力なVLMを活用するが、マルチヒューマンシナリオと苦労し、推論が不十分である。
我々は,全オブジェクト対の高密度な3次元セマンティックコンタクト予測のための,シングルパスのインスタンス認識フレームワークPi-HOCを紹介する。
Pi-HOCはインスタンスを検出し、ペアごとに専用のHuman-object(HO)トークンを生成し、InteractionFormerを使用してそれらを洗練する。
SAMベースのデコーダは、人間とオブジェクトのペアごとにSMPLのヒューマンメッシュの密接な接触を予測する。
MMHOIデータセットとDAMONデータセットでは、Pi-HOCは20倍高いスループットを達成しつつ、最先端手法の精度とローカライゼーションを大幅に向上する。
さらに,テスト時間最適化アルゴリズムを用いてSAM-3D画像とメシュ画像の再構成を改良し,追加のトレーニングを伴わずに言語クエリからの参照接触予測を可能にすることを実証した。
関連論文リスト
- GraphiContact: Pose-aware Human-Scene Robust Contact Perception for Interactive Systems [17.089112324421468]
本研究では,2つの事前訓練されたトランスフォーマーエンコーダから人間の先行情報を転送し,再構成メッシュ上での頂点ごとの人間とシーンの接触を予測する。
5つのベンチマークデータセットの実験により、GraphiContactは、接触予測と3D人間の再構築の両方で一貫した利得を達成している。
GraphiContact法をベースとしたコードでは,人間の3次元再構成とインタラクション解析を包括的に行う。
論文 参考訳(メタデータ) (2026-03-19T17:17:04Z) - Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images [54.602947113980655]
人景接触の幾何レベルを推定することは、特定の接触面点を3次元の人間ジオメトリに接することを目的としている。
GRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)は,3次元接触推定のための新しいパラダイムである。
ポイントクラウドエンコーダ/デコーダアーキテクチャと階層的特徴抽出と融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2025-05-10T09:25:46Z) - Pose Priors from Language Models [74.61186408764559]
言語はしばしば物理的相互作用を記述するために使用されるが、ほとんどの3次元人間のポーズ推定方法は、この豊富な情報ソースを見下ろしている。
我々は、コンタクトポーズの再構築に先立って、大型マルチモーダルモデル(LMM)を活用することにより、このギャップを埋める。
論文 参考訳(メタデータ) (2024-05-06T17:59:36Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Ins-HOI: Instance Aware Human-Object Interactions Recovery [44.02128629239429]
本稿では,エンド・ツー・エンドのインスタンス・アウェアなヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。
Ins-HOIはインスタンスレベルの再構築をサポートし、合理的で現実的な接触面を提供する。
我々は、現実世界の人間-椅子と手-物体の相互作用を伴う5.2kの高品質スキャンを含む、大規模で高忠実な3Dスキャンデータセットを収集します。
論文 参考訳(メタデータ) (2023-12-15T09:30:47Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。