論文の概要: FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction
- arxiv url: http://arxiv.org/abs/2105.01937v1
- Date: Wed, 5 May 2021 09:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:52:26.583715
- Title: FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction
- Title(参考訳): flex:パラメータフリーのマルチビュー3dヒューマンモーションレコンストラクション
- Authors: Brian Gordon, Sigal Raab, Guy Azov, Raja Giryes, Daniel Cohen-Or
- Abstract要約: マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
- 参考スコア(独自算出の注目度): 70.09086274139504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing availability of video recordings made by multiple cameras has
offered new means for mitigating occlusion and depth ambiguities in pose and
motion reconstruction methods. Yet, multi-view algorithms strongly depend on
camera parameters, in particular, the relative positions among the cameras.
Such dependency becomes a hurdle once shifting to dynamic capture in
uncontrolled settings. We introduce FLEX (Free muLti-view rEconstruXion), an
end-to-end parameter-free multi-view model. FLEX is parameter-free in the sense
that it does not require any camera parameters, neither intrinsic nor
extrinsic. Our key idea is that the 3D angles between skeletal parts, as well
as bone lengths, are invariant to the camera position. Hence, learning 3D
rotations and bone lengths rather than locations allows predicting common
values for all camera views. Our network takes multiple video streams, learns
fused deep features through a novel multi-view fusion layer, and reconstructs a
single consistent skeleton with temporally coherent joint rotations. We
demonstrate quantitative and qualitative results on the Human3.6M and KTH
Multi-view Football II datasets. We compare our model to state-of-the-art
methods that are not parameter-free and show that in the absence of camera
parameters, we outperform them by a large margin while obtaining comparable
results when camera parameters are available. Code, trained models, video
demonstration, and additional materials will be available on our project page.
- Abstract(参考訳): 複数のカメラで撮影されるビデオ録画の可利用性が高まり、ポーズやモーションリコンストラクションの手法において、咬合や奥行きの曖昧さを緩和する新しい手段が提供された。
しかし、マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対位置に大きく依存している。
このような依存関係は、制御されていない設定で動的キャプチャに移行するとハードルになる。
パラメータフリーのマルチビューモデルであるFLEX(Free muLti-view rEconstruXion)を紹介する。
FLEXはカメラパラメータを必要としないという意味ではパラメータフリーである。
私たちのキーとなるアイデアは、骨格部と骨の長さの間の3D角度は、カメラの位置と不変であるということです。
したがって、位置よりも3D回転と骨の長さを学習することで、すべてのカメラビューの共通値を予測することができる。
我々のネットワークは複数のビデオストリームを受け取り、新しいマルチビュー融合層を通して融合した深い特徴を学習し、時間的にコヒーレントな関節回転で単一の一貫した骨格を再構築する。
我々はHuman3.6MとKTH Multi-view Football IIデータセットの定量的および定性的な結果を示す。
モデルとパラメータフリーでない最先端の手法を比較し、カメラパラメータが存在しない場合、カメラパラメータが利用できる場合に比較結果を得ると同時に、大きなマージンで性能を向上することを示す。
コード、トレーニングされたモデル、ビデオデモ、その他の資料は、プロジェクトのページで利用可能です。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - MC-NeRF: Multi-Camera Neural Radiance Fields for Multi-Camera Image Acquisition Systems [22.494866649536018]
ニューラル・ラジアンス・フィールド(NeRF)は3次元シーン表現にマルチビュー・イメージを使用し、顕著な性能を示す。
以前のNeRFベースの手法のほとんどは、ユニークなカメラを前提としており、マルチカメラのシナリオをめったに考慮していない。
提案するMC-NeRFは,内在パラメータと外在パラメータの両方を,NeRFと併用して共同最適化する手法である。
論文 参考訳(メタデータ) (2023-09-14T16:40:44Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Multi-task Learning for Camera Calibration [3.274290296343038]
一対の画像から内在性(主点オフセットと焦点長)と外因性(ベースライン,ピッチ,翻訳)を予測できるユニークな手法を提案する。
カメラモデルニューラルネットワークを用いて3Dポイントを再構成し、再構成の損失を利用してカメラ仕様を得ることにより、この革新的なカメラ投影損失(CPL)法により、所望のパラメータを推定できる。
論文 参考訳(メタデータ) (2022-11-22T17:39:31Z) - Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。
従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。
提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-10-07T14:03:10Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。