論文の概要: Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery
- arxiv url: http://arxiv.org/abs/2605.13854v1
- Date: Wed, 01 Apr 2026 09:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.808146
- Title: Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery
- Title(参考訳): 3次元群集メッシュ回復のためのマルチモードハイパーグラフ推論
- Authors: Minghao Sun, Chongyang Xu, Yitao Xie, Buzhen Huang, Kun Li,
- Abstract要約: 実世界のインタラクション分析において,多人数の3D再構成が重要である。
現在のアプローチは、本質的に幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
コントラスト型マルチモーダルハイパーグラフ推論により, 群集再建のための意味的, 幾何学的, ポーズ的手がかりの相乗化を行う。
- 参考スコア(独自算出の注目度): 12.116457701406047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-person 3D reconstruction is pivotal for real-world interaction analysis, yet remains challenging due to severe occlusions and depth ambiguity. Current approaches typically rely on single-modality inputs, which inherently lack geometric guidance. Furthermore, these methods often reconstruct subjects in isolation, neglecting the collective group context essential for resolving ambiguities in crowded scenes. To address these limitations, we propose Contrastive Multi-modal Hypergraph Reasoning to synergize semantic, geometric, and pose cues for crowd reconstruction. We first initialize robust node representations by combining RGB features, geometric priors, and occlusion-aware incomplete poses. Additionally, we introduce a pelvis depth indicator as a global spatial anchor, aligning visual features with a metric-scale-agnostic depth ordering. Subsequently, we construct a shared-topology hypergraph that moves beyond pairwise constraints to model higher-order crowd dynamics. To improve feature fusion, we design a hypergraph-based contrastive learning scheme that jointly enhances intra-modal discriminability and enforces cross-modal orthogonality. This mechanism enables the network to propagate global context effectively, allowing it to infer missing information even under severe occlusion. Extensive experiments on the Panoptic and GigaCrowd benchmarks confirm that our method achieves new state-of-the-art performance. Code and pre-trained models are available at https://github.com/SunMH-try/CoMHR.
- Abstract(参考訳): マルチパーソン3次元再構成は実世界の相互作用解析において重要であるが、重度の閉塞と深度あいまいさのため依然として困難である。
現在のアプローチは通常、幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
さらに、これらの手法は、混み合った場面におけるあいまいさを解決するのに欠かせない集団的文脈を無視して、孤立して主題を再構築することが多い。
これらの制約に対処するため,コントラスト型マルチモーダルハイパーグラフ推論を提案し,群集再構築のための意味的・幾何学的・ポーズ的手法を提案する。
まず、RGBの特徴、幾何学的先行性、およびオクルージョン対応不完全ポーズを組み合わせることで、ロバストなノード表現を初期化する。
さらに,大域空間アンカーとして骨盤深度インジケータを導入し,視覚的特徴を計量スケールに依存しない深度オーダと整合させる。
続いて,高次群集ダイナミクスをモデル化するために,ペアの制約を超えた共有トポロジハイパーグラフを構築した。
特徴融合を改善するために,モーダル内識別性を協調的に向上し,モーダル間の直交性を強制するハイパーグラフに基づくコントラスト学習方式を設計する。
このメカニズムにより、ネットワークはグローバルなコンテキストを効果的に伝播することができ、深刻な閉塞の下でも行方不明な情報を推測することができる。
Panoptic および GigaCrowd ベンチマークの大規模な実験により,本手法が新たな最先端性能を実現することを確認した。
コードと事前訓練されたモデルはhttps://github.com/SunMH-try/CoMHRで入手できる。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - FF3R: Feedforward Feature 3D Reconstruction from Unconstrained views [34.14517479047999]
本稿では,制約のないマルチビュー画像シーケンスから幾何学的および意味論的推論を統一する,完全なアノテーションのないフィードフォワードフレームワークであるFF3Rを紹介する。
従来の方法とは異なり、FF3Rはカメラのポーズや深度マップ、セマンティックラベルを必要としない。
i) 意味的文脈で意味的文脈で幾何学的トークンを豊かにするToken-wise Fusion Moduleと(ii) 局所コヒーレンスのための意味的認識ボクセル化とグローバル一貫性のための幾何学的特徴ワープを組み合わせたセマンティック・ジオメトリ相互ブースティング機構である。
論文 参考訳(メタデータ) (2026-04-10T19:45:24Z) - Inverse Rendering for High-Genus 3D Surface Meshes from Multi-view Images with Persistent Homology Priors [11.227213428407673]
画像から3Dオブジェクトを再構成することは、本質的には幾何学、外観、トポロジーの曖昧さによる不適切な問題である。
本稿では,これらの曖昧さを解決するためにトポロジ的制約を活用する新しい戦略である,永続的ホモロジー先行と協調レンダリングを導入する。
論文 参考訳(メタデータ) (2026-01-17T20:06:19Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Breaking the Vicious Cycle: Coherent 3D Gaussian Splatting from Sparse and Motion-Blurred Views [40.70901994944635]
スパース画像とぼやけた画像から高忠実度3D再構成を行うフレームワークであるCoherentGSを紹介する。
我々の重要な洞察は、これらの複合劣化に二元的戦略を用いて対処することである。
CoherentGSは既存のメソッドを著しく上回り、この挑戦的なタスクのために新しい最先端のタスクを設定している。
論文 参考訳(メタデータ) (2025-12-11T07:36:35Z) - HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。