Fugu-MT 論文翻訳(概要): Humans in 4D: Reconstructing and Tracking Humans with Transformers

論文の概要: Humans in 4D: Reconstructing and Tracking Humans with Transformers

arxiv url: http://arxiv.org/abs/2305.20091v2
Date: Thu, 29 Jun 2023 05:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 16:23:15.075352
Title: Humans in 4D: Reconstructing and Tracking Humans with Transformers
Title（参考訳）: 4Dの人間:トランスフォーマーで人間の再構築と追跡
Authors: Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik
Abstract要約: 我々は、人間を再構築し、時間とともに追跡するアプローチを提案する。このアプローチの中核として、人間のメッシュリカバリのためのネットワークの完全な"トランスフォーマライズ"バージョンを提案する。このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
参考スコア（独自算出の注目度）: 63.8658998588921
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/.
Abstract（参考訳）: 我々は,人間を再構築し,時間とともに追跡する手法を提案する。このアプローチの核となるのが,人間のメッシュ回復のためのネットワークの完全"トランスフォーマライズ"版である。このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。ビデオの解析には,hmr 2.0からの3次元再構成を3dで動作するトラッキングシステムへの入力として用いる。これにより、複数の人に対応でき、オクルージョンイベントを通じてアイデンティティを維持できます。我々の完全なアプローチである4DHumansは、モノクロビデオから人々を追跡するための最先端の結果を得る。さらに,HMR 2.0が行動認識の下流タスクに与える影響を実証し,従来のポーズに基づく行動認識手法よりも顕著に改善した。私たちのコードとモデルはプロジェクトのwebサイト(https://shubham-goel.github.io/4dhumans/)で利用可能です。

関連論文リスト

SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos [53.227781131348856]
Human Mesh Recoveryは、2Dの観察から3Dのポーズと形状を再構築することを目的としている。近年のSAM 3D Bodyのような画像ベースHMR法は,線内画像に対して強靭性を実現している。ビデオからの時間的一貫した閉塞性HMRのためのトレーニングフリーフレームワークSAM-Body4Dを提案する。
論文参考訳（メタデータ） (2025-12-09T09:37:31Z)
Human3R: Everyone Everywhere All at Once [69.16576238974876]
我々はモノクロビデオからオンライン4Dヒューマンシーン再構築のためのフィードフォワードフレームワークであるHuman3Rを提案する。 Human3Rは、重い依存と反復的な改善を取り除く統一モデルである。グローバルなヒューマンモーション推定、ローカルなヒューマンメッシュリカバリ、ビデオ深度推定、カメラポーズ推定など、タスク間で優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-10-07T17:59:52Z)
HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction [15.368018463074058]
HAMSt3Rは、スパース・アンキャリブレーション画像からのヒトとシーンの3D再構成のためのMASt3Rの拡張である。提案手法では,人間をセグメント化したり,DensePose経由での密接な通信を推定したり,人中心環境における深度を予測したりするために,追加のネットワークヘッドを組み込んだ。
論文参考訳（メタデータ） (2025-08-22T14:43:18Z)
UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting [54.883935964137706]
UAV4Dは,UAVが捉えたダイナミックな現実世界のシーンに対して,フォトリアリスティックなレンダリングを可能にするフレームワークである。我々は3次元基礎モデルと人間のメッシュ再構築モデルを組み合わせて、シーン背景と人間の両方を再構築する。以上の結果から,新しい視点合成法に対するアプローチの利点が示され,1.5dBPSNRの改善と視覚的シャープネスの向上が達成された。
論文参考訳（メタデータ） (2025-06-05T13:21:09Z)
ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos [18.73641648585445]
最近のニューラルレンダリングの進歩により、全体的人間シーンの再構築が可能になったが、事前に校正されたカメラと人間のポーズが必要である。本稿では,オンライン形式でカメラトラッキング,ポーズ推定,ヒューマンシーン再構築を同時に行う新しい統合フレームワークを提案する。具体的には,人間の変形モジュールを設計し,細部を再構築し,分布外への一般化性を高める。
論文参考訳（メタデータ） (2025-04-17T17:59:02Z)
WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文参考訳（メタデータ） (2025-02-03T04:43:41Z)
Motion Diffusion-Guided 3D Global HMR from a Dynamic Camera [3.6948631725065355]
拡散最適化を用いた新しい3次元大域HMR法DiffOptを提案する。我々の重要な洞察は、動き拡散モデル(MDM)のような人間の動き生成の最近の進歩は、コヒーレントな人間の動きの強い先行を含むことである。我々はDiffOptをGlobal 3D Human Pose and Shape in the Wildの電磁データベースからビデオシーケンスで検証した。
論文参考訳（メタデータ） (2024-11-15T21:09:40Z)
SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文参考訳（メタデータ） (2023-11-27T14:22:07Z)
TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments [106.80978555346958]
現在の方法では、地球上の座標で動く人間を確実に推定することはできない。 TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初の1段階の手法である。トラッキングとHPSベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-06-05T13:00:44Z)
Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文参考訳（メタデータ） (2023-02-24T18:59:15Z)
Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文参考訳（メタデータ） (2023-02-02T15:37:46Z)
UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文参考訳（メタデータ） (2022-08-02T17:59:54Z)
Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2021-11-29T16:32:41Z)
On Development and Evaluation of Retargeting Human Motion and Appearance in Monocular Videos [2.870762512009438]
人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2021-03-29T13:17:41Z)
4D Human Body Capture from Egocentric Video via 3D Scene Grounding [38.3169520384642]
本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。エゴセントリックなビデオのユニークな視点と迅速なカメラの動きは、人間の身体を捉えるための技術的な障壁を増す。
論文参考訳（メタデータ） (2020-11-26T15:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。