Fugu-MT 論文翻訳(概要): Enhancing Egocentric 3D Pose Estimation with Third Person Views

論文の概要: Enhancing Egocentric 3D Pose Estimation with Third Person Views

arxiv url: http://arxiv.org/abs/2201.02017v2
Date: Fri, 7 Jan 2022 09:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-10 12:35:21.105782
Title: Enhancing Egocentric 3D Pose Estimation with Third Person Views
Title（参考訳）: 第三者視点による自己中心的3次元ポーズ推定の促進
Authors: Ameya Dhamanaskar, Mariella Dimiccoli, Enric Corona, Albert Pumarola, Francesc Moreno-Noguer
Abstract要約: 本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。 First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
参考スコア（独自算出の注目度）: 37.9683439632693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation nor knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
Abstract（参考訳）: 本稿では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。鍵となるアイデアは、ジョイント埋め込みスペースで第1と第3のビューをリンクする高レベル機能を活用することだ。このような埋め込み空間を学ぶために、私たちはfirst2third-poseという、ファーストビューとサードビューの両方からキャプチャされた人間の活動を描いた2000近いビデオのペア同期データセットを紹介します。自己教師ありの方法で訓練された半シャム語アーキテクチャを用いて,空間的および動作領域的特徴を明示的に検討する。実験の結果,本データセットで学習した統合多視点埋め込み空間は,カメラパラメータの知識やドメイン適応を必要とせず,任意の単視点エゴセントリックビデオから識別的特徴を抽出するのに有用であることがわかった。本研究では,2つの非拘束データセットにおける自己中心型3次元身体ポーズ推定性能を,3つの教師付き最先端アプローチで大幅に改善する。私たちのデータセットとコードは研究目的で利用できます。

関連論文リスト

Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。これらの情報の正確な注釈を得るのは難しい。完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。 CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-03-19T04:54:59Z)
Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文参考訳（メタデータ） (2024-01-30T03:00:25Z)
Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2023-12-07T08:18:35Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文参考訳（メタデータ） (2021-04-16T10:20:26Z)
Self-Supervised Multi-View Synchronization Learning for 3D Pose Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文参考訳（メタデータ） (2020-10-13T08:01:24Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。