論文の概要: LEXIS: LatEnt ProXimal Interaction Signatures for 3D HOI from an Image
- arxiv url: http://arxiv.org/abs/2604.20800v1
- Date: Wed, 22 Apr 2026 17:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.258182
- Title: LEXIS: LatEnt ProXimal Interaction Signatures for 3D HOI from an Image
- Title(参考訳): LEXIS: 画像から3D HoIのラトエントプロキシマル相互作用シグナチャ
- Authors: Dimitrije Antić, Alvaro Budria, George Paschalidis, Sai Kumar Dwivedi, Dimitrios Tzionas,
- Abstract要約: RGB画像からの3Dヒューマン・オブジェクト・インタラクションの再構築は知覚システムに不可欠である。
この制限をInterFields(密集した連続的な近接を符号化する表現)を介して解決する。
LEXISシグネチャを利用して人間とオブジェクトのメッシュを推定する拡散フレームワークであるLEXIS-Flowを開発した。
- 参考スコア(独自算出の注目度): 11.119389060991532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D Human-Object Interaction from an RGB image is essential for perceptive systems. Yet, this remains challenging as it requires capturing the subtle physical coupling between the body and objects. While current methods rely on sparse, binary contact cues, these fail to model the continuous proximity and dense spatial relationships that characterize natural interactions. We address this limitation via InterFields, a representation that encodes dense, continuous proximity across the entire body and object surfaces. However, inferring these fields from single images is inherently ill-posed. To tackle this, our intuition is that interaction patterns are characteristically structured by the action and object geometry. We capture this structure in LEXIS, a novel discrete manifold of interaction signatures learned via a VQ-VAE. We then develop LEXIS-Flow, a diffusion framework that leverages LEXIS signatures to estimate human and object meshes alongside their InterFields. Notably, these InterFields help in a guided refinement that ensures physically-plausible, proximity-aware reconstructions without requiring post-hoc optimization. Evaluation on Open3DHOI and BEHAVE shows that LEXIS-Flow significantly outperforms existing SotA baselines in reconstruction, contact, and proximity quality. Our approach not only improves generalization but also yields reconstructions perceived as more realistic, moving us closer to holistic 3D scene understanding. Code & models will be public at https://anticdimi.github.io/lexis.
- Abstract(参考訳): RGB画像からの3Dヒューマン・オブジェクト・インタラクションの再構築は知覚システムに不可欠である。
しかし、身体と物体の間の微妙な物理的結合を捉える必要があるため、これは依然として困難である。
現在の手法は疎結合な接触手段に依存しているが、これらは自然な相互作用を特徴づける連続した近接関係と密接な空間関係をモデル化することができない。
この制限をInterFieldsを通じて解決する。この表現は、体全体と物体の表面に密接な連続的な近接をエンコードする。
しかし、これらのフィールドを単一の画像から推測することは本質的に不適切である。
これを解決するために、我々の直感は、相互作用パターンがアクションとオブジェクトの幾何学によって特徴的に構造化されていることである。
この構造を,VQ-VAEを用いて学習した相互作用シグネチャの離散多様体であるLEXISで捉える。
次に、LEXISシグネチャを利用した拡散フレームワークであるLEXIS-Flowを開発し、InterFieldと並行して人間とオブジェクトのメッシュを推定する。
特に、これらのInterFieldは、ポストホックの最適化を必要とせずに、物理的に証明可能な、近接認識の再構築を可能にするガイド付きリファインメントに役立ちます。
Open3DHOIとBEHAVEの評価では、レキシスフローは再建、接触、近接品質において既存のSotAベースラインを大きく上回っている。
我々のアプローチは一般化を改善するだけでなく、より現実的と見なされる再構築をもたらし、総合的な3Dシーン理解に近づきつつある。
コードとモデルはhttps://anticdimi.github.io/lexis.comで公開される。
関連論文リスト
- LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents [31.495577251319315]
ArtiLatentは、人間の作った3Dオブジェクトを精密な幾何学、正確な調音、リアルな外観で合成する生成フレームワークである。
論文 参考訳(メタデータ) (2025-10-24T13:08:15Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。