論文の概要: Human Mesh Recovery from Multiple Shots
- arxiv url: http://arxiv.org/abs/2012.09843v1
- Date: Thu, 17 Dec 2020 18:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:22:33.435468
- Title: Human Mesh Recovery from Multiple Shots
- Title(参考訳): 複数ショットによるヒトメッシュの回復
- Authors: Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa
- Abstract要約: 疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
- 参考スコア(独自算出の注目度): 85.18244937708356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos from edited media like movies are a useful, yet under-explored source
of information. The rich variety of appearance and interactions between humans
depicted over a large temporal context in these films could be a valuable
source of data. However, the richness of data comes at the expense of
fundamental challenges such as abrupt shot changes and close up shots of actors
with heavy truncation, which limits the applicability of existing human 3D
understanding methods. In this paper, we address these limitations with an
insight that while shot changes of the same scene incur a discontinuity between
frames, the 3D structure of the scene still changes smoothly. This allows us to
handle frames before and after the shot change as multi-view signal that
provide strong cues to recover the 3D state of the actors. We propose a
multi-shot optimization framework, which leads to improved 3D reconstruction
and mining of long sequences with pseudo ground truth 3D human mesh. We show
that the resulting data is beneficial in the training of various human mesh
recovery models: for single image, we achieve improved robustness; for video we
propose a pure transformer-based temporal encoder, which can naturally handle
missing observations due to shot changes in the input frames. We demonstrate
the importance of the insight and proposed models through extensive
experiments. The tools we develop open the door to processing and analyzing in
3D content from a large library of edited media, which could be helpful for
many downstream applications. Project page:
https://geopavlakos.github.io/multishot
- Abstract(参考訳): 映画のような編集されたメディアのビデオは、有用だが未調査の情報ソースである。
これらの映画において、大きな時間的文脈で描かれた人間同士の多様な外観と相互作用は、貴重なデータ源となり得る。
しかし、データの豊かさは、急激なショット変更や、重度のトランケーションを持つアクターのクローズアップといった基本的な課題を犠牲にされ、既存の人間の3D理解方法の適用性が制限される。
本稿では,同一シーンのショット変更がフレーム間の不連続を生じさせるが,シーンの3d構造は依然としてスムーズに変化するという考察を加えて,これらの制約について述べる。
これにより、撮影前後のフレームをマルチビュー信号として処理し、アクターの3D状態を復元する強力な手がかりを提供する。
提案するマルチショット最適化フレームワークは,擬似基底真理3次元メッシュを用いた長周期の3次元再構成とマイニングを改善する。
得られたデータは,人間のメッシュ回復モデルのトレーニングにおいて有用であることが示される: 単一画像の場合, 頑健性が向上する; ビデオの場合, 入力フレームのショット変化による観察の欠如を自然に処理できる純粋トランスフォーマーベースのテンポラルエンコーダを提案する。
広範な実験を通じて,洞察と提案モデルの重要性を実証する。
私たちが開発しているツールは、編集されたメディアの巨大なライブラリから3Dコンテンツを処理・分析するための扉を開きます。
プロジェクトページ: https://geopavlakos.github.io/multishot
関連論文リスト
- ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera [40.817960406002506]
本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
論文 参考訳(メタデータ) (2023-03-29T06:23:44Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。