論文の概要: PoseKernelLifter: Metric Lifting of 3D Human Pose using Sound
- arxiv url: http://arxiv.org/abs/2112.00216v2
- Date: Fri, 3 Dec 2021 00:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 13:28:51.309152
- Title: PoseKernelLifter: Metric Lifting of 3D Human Pose using Sound
- Title(参考訳): PoseKernelLifter:音を利用した3次元人間の空間リフティング
- Authors: Zhijian Yang, Xiaoran Fan, Volkan Isler, Hyun Soo Park
- Abstract要約: 単一視点画像から計量スケールの人物の3次元ポーズを再構築することは幾何学的に不適切な問題である。
画像とともに記録された音声信号から,人物の3Dポーズを再現するための補完情報が得られることを示す。
我々は、音声と視覚信号を融合した多段3DCNNを設計し、3Dポーズをメートル法で再構築する。
- 参考スコア(独自算出の注目度): 34.814669331418884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing the 3D pose of a person in metric scale from a single view
image is a geometrically ill-posed problem. For example, we can not measure the
exact distance of a person to the camera from a single view image without
additional scene assumptions (e.g., known height). Existing learning based
approaches circumvent this issue by reconstructing the 3D pose up to scale.
However, there are many applications such as virtual telepresence, robotics,
and augmented reality that require metric scale reconstruction. In this paper,
we show that audio signals recorded along with an image, provide complementary
information to reconstruct the metric 3D pose of the person.
The key insight is that as the audio signals traverse across the 3D space,
their interactions with the body provide metric information about the body's
pose. Based on this insight, we introduce a time-invariant transfer function
called pose kernel -- the impulse response of audio signals induced by the body
pose. The main properties of the pose kernel are that (1) its envelope highly
correlates with 3D pose, (2) the time response corresponds to arrival time,
indicating the metric distance to the microphone, and (3) it is invariant to
changes in the scene geometry configurations. Therefore, it is readily
generalizable to unseen scenes. We design a multi-stage 3D CNN that fuses audio
and visual signals and learns to reconstruct 3D pose in a metric scale. We show
that our multi-modal method produces accurate metric reconstruction in real
world scenes, which is not possible with state-of-the-art lifting approaches
including parametric mesh regression and depth regression.
- Abstract(参考訳): 単一視点画像から計量スケールの人物の3次元ポーズを再構築することは幾何学的に不適切な問題である。
例えば、ある人物とカメラの正確な距離を、追加のシーン仮定(例えば、既知の高さ)なしでは、単一のビューイメージから測定することはできない。
既存の学習ベースのアプローチは、3Dのポーズを大規模に再構築することでこの問題を回避する。
しかし、仮想テレプレゼンス、ロボティクス、拡張現実など、計量スケールの再構築を必要とする多くの応用がある。
本稿では,画像とともに記録された音声信号を用いて,人物の3Dポーズを再現するための補完情報を提供する。
重要な洞察は、音声信号が3d空間を横切ると、身体との相互作用が身体のポーズに関するメトリック情報を提供するということである。
この知見に基づいて,身体ポーズによって誘発される音声信号のインパルス応答であるポーズカーネルと呼ばれる時間不変な伝達関数を導入する。
ポーズカーネルの主な特性は、(1)エンベロープが3Dポーズと高度に相関し、(2)時刻応答が到着時刻に対応し、マイクへの距離を示すこと、(3)シーンの幾何学的構成の変化に不変であることである。
そのため、見当たらない場面に容易に一般化できる。
音声と視覚信号を融合して3dポーズをメートル法スケールで再構築する多段3d cnnを設計した。
我々は,パラメトリックメッシュ回帰や深度回帰といった最先端のリフト手法では不可能な,実世界のシーンで正確なメートル法再構成が可能であることを示す。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences [21.057940424318314]
2つの画像が与えられた場合、画像と画像の対応を確立することで、相対的なカメラのポーズを推定できる。
我々は、3次元カメラ空間における距離対応を予測できるキーポイントマッチングパイプラインであるMicKeyを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:22:50Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。