論文の概要: STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment
Fusion
- arxiv url: http://arxiv.org/abs/2401.01730v1
- Date: Wed, 3 Jan 2024 13:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:56:49.386593
- Title: STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment
Fusion
- Title(参考訳): STAF:時空間配向融合によるビデオからの3次元メッシュ復元
- Authors: Wei Yao, Hongwen Zhang, Yunlian Sun, and Jinhui Tang
- Abstract要約: 既存のモデルは、通常、空間的・時間的情報を無視し、メッシュや画像の不一致や時間的不連続につながる可能性がある。
ビデオベースのモデルとして、注意に基づくテンポラルコヒーレンス融合モジュールによる人間の動きからのコヒーレンスヒントを利用する。
さらに,モデルが対象のフレームだけでなく,入力シーケンス全体に集中できるように,平均プールモジュール(APM)を提案する。
- 参考スコア(独自算出の注目度): 35.42718669331158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recovery of 3D human mesh from monocular images has significantly been
developed in recent years. However, existing models usually ignore spatial and
temporal information, which might lead to mesh and image misalignment and
temporal discontinuity. For this reason, we propose a novel Spatio-Temporal
Alignment Fusion (STAF) model. As a video-based model, it leverages coherence
clues from human motion by an attention-based Temporal Coherence Fusion Module
(TCFM). As for spatial mesh-alignment evidence, we extract fine-grained local
information through predicted mesh projection on the feature maps. Based on the
spatial features, we further introduce a multi-stage adjacent Spatial Alignment
Fusion Module (SAFM) to enhance the feature representation of the target frame.
In addition to the above, we propose an Average Pooling Module (APM) to allow
the model to focus on the entire input sequence rather than just the target
frame. This method can remarkably improve the smoothness of recovery results
from video. Extensive experiments on 3DPW, MPII3D, and H36M demonstrate the
superiority of STAF. We achieve a state-of-the-art trade-off between precision
and smoothness. Our code and more video results are on the project page
https://yw0208.github.io/staf/
- Abstract(参考訳): 近年,単眼画像からの3次元メッシュの回復が顕著に進んでいる。
しかし、既存のモデルは通常、空間的および時間的情報を無視するので、メッシュや画像の不一致や時間的不連続につながる可能性がある。
そこで我々は,新しい時空間配向融合(STAF)モデルを提案する。
ビデオベースモデルとして、注意に基づく時間的コヒーレンス融合モジュール(TCFM)による人間の動きからのコヒーレンスヒントを利用する。
空間メッシュアライメントの証拠として,特徴写像上の予測メッシュプロジェクションを通して微細な局所情報を抽出する。
さらに,その空間的特徴に基づいて,多段隣接空間アライメント融合モジュール(safm)を導入し,対象フレームの特徴表現を強化する。
さらに, モデルが対象のフレームだけでなく, 入力シーケンス全体に集中できるように, 平均プールモジュール (APM) を提案する。
この方法は映像からの復元結果の滑らかさを著しく改善することができる。
3DPW, MPII3D, H36Mの広範囲な実験はSTAFの優位性を示した。
我々は精度と滑らかさの最先端のトレードオフを達成する。
私たちのコードとさらなるビデオ結果は、プロジェクトページhttps://yw0208.github.io/staf/にある。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face
Alignment [34.223372986832544]
最先端の3DMMベースの手法は、モデルの係数を直接回帰する。
本稿では,画像とモデル空間予測の両方の利点を組み合わせた融合ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T08:43:37Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape
Estimation from Monocular Video [24.217269857183233]
映像から3次元の人間のポーズと形状を推定するために,動作中の人間を捕捉する動きポーズと形状ネットワーク(MPS-Net)を提案する。
具体的には、まず、人間の動きから観察された視覚的手がかりを利用して、シーケンス内の注意を必要とする範囲を適応的に再調整する動き継続注意(MoCA)モジュールを提案する。
MoCAとHAFIモジュールを結合することにより、提案したMPS-Netは、ビデオ中の3D人間のポーズと形状を推定するのに優れている。
論文 参考訳(メタデータ) (2022-03-16T11:00:24Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。