論文の概要: The One Where They Reconstructed 3D Humans and Environments in TV Shows
- arxiv url: http://arxiv.org/abs/2207.14279v1
- Date: Thu, 28 Jul 2022 17:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:32:49.089520
- Title: The One Where They Reconstructed 3D Humans and Environments in TV Shows
- Title(参考訳): テレビ番組で3d人間と環境を再現した
- Authors: Georgios Pavlakos, Ethan Weber, Matthew Tancik, Angjoo Kanazawa
- Abstract要約: テレビ番組には様々な人間の行動が描かれており、豊かなデータ源となる可能性について広く研究されている。
そこで本研究では,テレビ番組の全シーズンで動作し,情報を3Dで集約する自動アプローチを提案する。
我々は,人間とその環境を3次元で推論することで,下流の幅広い応用が可能になることを示す。
- 参考スコア(独自算出の注目度): 33.533207518342465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TV shows depict a wide variety of human behaviors and have been studied
extensively for their potential to be a rich source of data for many
applications. However, the majority of the existing work focuses on 2D
recognition tasks. In this paper, we make the observation that there is a
certain persistence in TV shows, i.e., repetition of the environments and the
humans, which makes possible the 3D reconstruction of this content. Building on
this insight, we propose an automatic approach that operates on an entire
season of a TV show and aggregates information in 3D; we build a 3D model of
the environment, compute camera information, static 3D scene structure and body
scale information. Then, we demonstrate how this information acts as rich 3D
context that can guide and improve the recovery of 3D human pose and position
in these environments. Moreover, we show that reasoning about humans and their
environment in 3D enables a broad range of downstream applications:
re-identification, gaze estimation, cinematography and image editing. We apply
our approach on environments from seven iconic TV shows and perform an
extensive evaluation of the proposed system.
- Abstract(参考訳): テレビ番組は様々な人間の行動を描写しており、多くのアプリケーションで豊富なデータソースになる可能性について広く研究されている。
しかし、既存の研究の大部分は2D認識タスクに焦点を当てている。
本稿では,テレビ番組に一定の持続性,すなわち環境と人間の繰り返しが存在することを観察し,このコンテンツを3次元的に再構成することを可能にする。
そこで,本研究では,テレビ番組の全シーズンを通して動作し,情報を3dに集約する自動的手法を提案し,環境の3dモデルを構築し,カメラ情報,静的3dシーン構造,体格情報を計算する。
次に,この情報がどのようにリッチな3dコンテキストとして作用し,これらの環境における3d人間のポーズと位置の回復を誘導し改善するかを示す。
さらに、人間とその環境を3Dで推論することで、再識別、視線推定、撮影、画像編集など、幅広い下流の応用が可能になることを示す。
提案手法を7つのテレビ番組の環境に適用し,提案システムの広範な評価を行う。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文 参考訳(メタデータ) (2024-04-22T17:59:50Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Egocentric Activity Recognition and Localization on a 3D Map [94.30708825896727]
我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。
本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
論文 参考訳(メタデータ) (2021-05-20T06:58:15Z) - 3DCrowdNet: 2D Human Pose-Guided3D Crowd Human Pose and Shape Estimation
in the Wild [61.92656990496212]
3DCrowdNetは、2D人間のポーズガイド3D群衆ポーズと形状推定システムです。
我々の3DCrowdNetは、これまでのクラウドシーンの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-15T08:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。