論文の概要: DCHM: Depth-Consistent Human Modeling for Multiview Detection
- arxiv url: http://arxiv.org/abs/2507.14505v1
- Date: Sat, 19 Jul 2025 06:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.920396
- Title: DCHM: Depth-Consistent Human Modeling for Multiview Detection
- Title(参考訳): DCHM:マルチビュー検出のための深部連続人体モデリング
- Authors: Jiahao Ma, Tianyu Wang, Miaomiao Liu, David Ahmedt-Aristizabal, Chuong Nguyen,
- Abstract要約: 多視点歩行者検出は通常、人間のモデリングと歩行者のローカライゼーションという2つの段階を含む。
本稿では,一貫した深度推定と多視点融合を目的としたフレームワークDCHMを提案する。
提案する超画素ワイドガウススプラッティングパイプラインは,スパースビュー,大規模,混み合ったシナリオにおいて,多視点奥行きの整合性を実現する。
- 参考スコア(独自算出の注目度): 13.81157120485514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiview pedestrian detection typically involves two stages: human modeling and pedestrian localization. Human modeling represents pedestrians in 3D space by fusing multiview information, making its quality crucial for detection accuracy. However, existing methods often introduce noise and have low precision. While some approaches reduce noise by fitting on costly multiview 3D annotations, they often struggle to generalize across diverse scenes. To eliminate reliance on human-labeled annotations and accurately model humans, we propose Depth-Consistent Human Modeling (DCHM), a framework designed for consistent depth estimation and multiview fusion in global coordinates. Specifically, our proposed pipeline with superpixel-wise Gaussian Splatting achieves multiview depth consistency in sparse-view, large-scaled, and crowded scenarios, producing precise point clouds for pedestrian localization. Extensive validations demonstrate that our method significantly reduces noise during human modeling, outperforming previous state-of-the-art baselines. Additionally, to our knowledge, DCHM is the first to reconstruct pedestrians and perform multiview segmentation in such a challenging setting. Code is available on the \href{https://jiahao-ma.github.io/DCHM/}{project page}.
- Abstract(参考訳): 多視点歩行者検出は通常、人間のモデリングと歩行者のローカライゼーションという2つの段階を含む。
人間のモデリングは、多視点情報を融合することで3次元空間の歩行者を表現し、その品質を検出精度に欠かせないものにしている。
しかし、既存の手法はしばしばノイズを導入し、精度は低い。
コストのかかるマルチビューの3Dアノテーションに合わせることでノイズを減らすアプローチもあるが、様々な場面にまたがる一般化に苦慮することが多い。
人間のラベル付きアノテーションへの依存をなくし、正確に人間をモデル化するために、グローバル座標における一貫した深さ推定とマルチビュー融合を目的としたフレームワークDCHM(Depth-Consistent Human Modeling)を提案する。
具体的には,超画素ワイドガウススプラッティングを用いたパイプラインは,スパースビュー,大規模,混雑シナリオにおける多視点深度一貫性を実現し,歩行者位置決めのための正確な点雲を生成する。
広範に検証した結果,本手法は人間のモデリングにおけるノイズを著しく低減し,従来の最先端のベースラインよりも優れていた。
さらに、私たちの知る限り、DCHMは歩行者を初めて再構築し、このような困難な環境で多視点セグメンテーションを行う。
コードは \href{https://jiahao-ma.github.io/DCHM/}{project page} で公開されている。
関連論文リスト
- Enhanced Multi-View Pedestrian Detection Using Probabilistic Occupancy Volume [21.393389135740712]
閉塞は、単一視点からの歩行者検出において重要な課題となる。
マルチビュー検出の最近の進歩は、地上面に特徴を戦略的に投影する早期融合戦略を利用した。
本稿では,従来の3次元再構築手法を有効活用し,より深い多視点歩行者検出を実現する新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-03-14T01:05:44Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Multiview Detection with Cardboard Human Modeling [23.072791405965415]
本研究では,人点雲モデリングに基づく新しい歩行者表現方式を提案する。
具体的には、人体深度推定のためのレイトレーシングを用いて、歩行者を地上の直立した薄い段ボールの点雲としてモデル化する。
論文 参考訳(メタデータ) (2022-07-05T12:47:26Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。