論文の概要: Dual-Branch Graph Transformer Network for 3D Human Mesh Reconstruction from Video
- arxiv url: http://arxiv.org/abs/2412.01179v1
- Date: Mon, 02 Dec 2024 06:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:23.696325
- Title: Dual-Branch Graph Transformer Network for 3D Human Mesh Reconstruction from Video
- Title(参考訳): ビデオからの3次元メッシュ再構成のためのデュアルブランチグラフトランスネットワーク
- Authors: Tao Tang, Hong Liu, Yingxuan You, Ti Wang, Wenhao Li,
- Abstract要約: モノクルビデオからのヒューマンメッシュ再構成(HMR)は、人間とロボットの相互作用と協調において重要な役割を果たす。
既存のビデオベースのHMR再構成手法は、正確な再構成と滑らかな動作のトレードオフに直面している。
DGTRというビデオから3DヒューマンメッシュのtextbfReconstructionを実現するための textbfDual-branch textbfGraph textbfTransformer ネットワークを提案する。
- 参考スコア(独自算出の注目度): 18.685856290041283
- License:
- Abstract: Human Mesh Reconstruction (HMR) from monocular video plays an important role in human-robot interaction and collaboration. However, existing video-based human mesh reconstruction methods face a trade-off between accurate reconstruction and smooth motion. These methods design networks based on either RNNs or attention mechanisms to extract local temporal correlations or global temporal dependencies, but the lack of complementary long-term information and local details limits their performance. To address this problem, we propose a \textbf{D}ual-branch \textbf{G}raph \textbf{T}ransformer network for 3D human mesh \textbf{R}econstruction from video, named DGTR. DGTR employs a dual-branch network including a Global Motion Attention (GMA) branch and a Local Details Refine (LDR) branch to parallelly extract long-term dependencies and local crucial information, helping model global human motion and local human details (e.g., local motion, tiny movement). Specifically, GMA utilizes a global transformer to model long-term human motion. LDR combines modulated graph convolutional networks and the transformer framework to aggregate local information in adjacent frames and extract crucial information of human details. Experiments demonstrate that our DGTR outperforms state-of-the-art video-based methods in reconstruction accuracy and maintains competitive motion smoothness. Moreover, DGTR utilizes fewer parameters and FLOPs, which validate the effectiveness and efficiency of the proposed DGTR. Code is publicly available at \href{https://github.com/TangTao-PKU/DGTR}{\textcolor{myBlue}{https://github.com/TangTao-PKU/DGTR}}.
- Abstract(参考訳): モノクルビデオからのヒューマンメッシュ再構成(HMR)は、人間とロボットの相互作用と協調において重要な役割を果たす。
しかし、既存のビデオベースのヒューマンメッシュ再構築手法は、正確な再構築と滑らかな動作のトレードオフに直面している。
これらの手法は、局所的時間的相関や大域的時間的依存を抽出するRNNやアテンション機構に基づくネットワークを設計するが、相補的な長期情報や局所的詳細が欠如しているため、性能が制限される。
この問題に対処するため、DGTR というビデオから3次元の人的メッシュに対する \textbf{D}ual-branch \textbf{G}raph \textbf{T}ransformer ネットワークを提案する。
DGTRは、GMA(Global Motion Attention)ブランチとLDR(Local details Refine)ブランチを含むデュアルブランチネットワークを使用して、長期的な依存関係とローカルな重要な情報を並列に抽出し、グローバルな人間の動きとローカルな人間の詳細(例えば、ローカルな動き、小さな動き)をモデル化する。
具体的には、GMAはグローバルトランスフォーマーを使用して、長期的な人間の動きをモデル化する。
LDRは、変調グラフ畳み込みネットワークとトランスフォーマーフレームワークを組み合わせて、隣接するフレーム内のローカル情報を集約し、人間の詳細の重要な情報を抽出する。
実験により、DGTRは再現精度において最先端のビデオベース手法より優れ、競争力の滑らかさを維持していることが示された。
さらに、DGTRはパラメータやFLOPを減らし、提案したDGTRの有効性と効率性を検証する。
コードは \href{https://github.com/TangTao-PKU/DGTR}{\textcolor{myBlue}{https://github.com/TangTao-PKU/DGTR}} で公開されている。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Temporal-Aware Refinement for Video-based Human Pose and Shape Recovery [20.566505924677013]
本研究では,時間認識のグローバルな特徴と局所的な特徴を探索し,正確なポーズと形状回復を実現するための時間認識精細ネットワーク(TAR)を提案する。
我々のTARは,3DPW,MPI-INF-3DHP,Human3.6Mといった,従来の最先端手法よりも正確な結果が得られる。
論文 参考訳(メタデータ) (2023-11-16T03:35:17Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。