論文の概要: StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset
- arxiv url: http://arxiv.org/abs/2407.20545v1
- Date: Tue, 30 Jul 2024 04:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:19:06.907953
- Title: StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset
- Title(参考訳): StackFLOW:オフセット付き多重正規化流による単眼の物体再構成
- Authors: Chaofan Huo, Ye Shi, Yuexin Ma, Lan Xu, Jingyi Yu, Jingya Wang,
- Abstract要約: 本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
- 参考スコア(独自算出の注目度): 56.71580976007712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling and capturing the 3D spatial arrangement of the human and the object is the key to perceiving 3D human-object interaction from monocular images. In this work, we propose to use the Human-Object Offset between anchors which are densely sampled from the surface of human mesh and object mesh to represent human-object spatial relation. Compared with previous works which use contact map or implicit distance filed to encode 3D human-object spatial relations, our method is a simple and efficient way to encode the highly detailed spatial correlation between the human and object. Based on this representation, we propose Stacked Normalizing Flow (StackFLOW) to infer the posterior distribution of human-object spatial relations from the image. During the optimization stage, we finetune the human body pose and object 6D pose by maximizing the likelihood of samples based on this posterior distribution and minimizing the 2D-3D corresponding reprojection loss. Extensive experimental results show that our method achieves impressive results on two challenging benchmarks, BEHAVE and InterCap datasets.
- Abstract(参考訳): 人間と物体の3次元空間配置をモデル化し、捉えることは、モノクロ画像から3次元の人間と物体の相互作用を知覚する鍵となる。
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
従来の3次元空間関係を符号化するための接点マップや暗黙距離を用いた手法と比較して,本手法は人間と物体の空間関係を高度に詳細に符号化する簡便かつ効率的な方法である。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、この後部分布に基づいてサンプルの確率を最大化し、2D-3Dに対応する再投射損失を最小化することにより、人体ポーズと物体6Dポーズを微調整する。
実験結果から, BEHAVEとInterCapの2つのベンチマークにおいて, 優れた結果が得られた。
関連論文リスト
- Monocular Human-Object Reconstruction in the Wild [11.261465071559163]
本研究では,野生の2次元画像から3次元対象空間関係を学習する2次元教師付き手法を提案する。
本手法では,フローベースニューラルネットワークを用いて,データセットの各画像に対する2次元人間オブジェクトのキーポイントレイアウトとビューポートの事前分布を学習する。
論文 参考訳(メタデータ) (2024-07-30T05:45:06Z) - Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。
動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。
本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文 参考訳(メタデータ) (2024-07-23T18:41:16Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body
Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。
既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文 参考訳(メタデータ) (2021-10-28T16:24:55Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Learning Transferable Kinematic Dictionary for 3D Human Pose and Shape
Reconstruction [15.586347115568973]
ヒト関節の3次元回転の解空間を明示的に正規化するキネマティック辞書を提案する。
ニューラルネットワークのトレーニング中にシェイプアノテーションを使わずに,エンドツーエンドの3D再構築を実現する。
提案手法は、Human3.6M, MPI-INF-3DHP, LSPなどの大規模データセットの競合結果を得る。
論文 参考訳(メタデータ) (2021-04-02T09:24:29Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。