Fugu-MT 論文翻訳(概要): Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency

論文の概要: Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency

arxiv url: http://arxiv.org/abs/2311.12421v2
Date: Wed, 02 Oct 2024 08:17:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 03:18:42.002429
Title: Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency
Title（参考訳）: 2つのビューが1より優れている:マルチビュー整合性による単眼的な3Dポーズ推定
Authors: Christian Keilstrup Ingwersen, Rasmus Tirsgaard, Rasmus Nylander, Janus Nørtoft Jensen, Anders Bjorholm Dahl, Morten Rieger Hannemose,
Abstract要約: 本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
参考スコア（独自算出の注目度）: 0.493599216374976
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deducing a 3D human pose from a single 2D image or 2D keypoints is inherently challenging, given the fundamental ambiguity wherein multiple 3D poses can correspond to the same 2D representation. The acquisition of 3D data, while invaluable for resolving pose ambiguity, is expensive and requires an intricate setup, often restricting its applicability to controlled lab environments. We improve performance of monocular human pose estimation models using multiview data for fine-tuning. We propose a novel loss function, multiview consistency, to enable adding additional training data with only 2D supervision. This loss enforces that the inferred 3D pose from one view aligns with the inferred 3D pose from another view under similarity transformations. Our consistency loss substantially improves performance for fine-tuning with no available 3D data. Our experiments demonstrate that two views offset by 90 degrees are enough to obtain good performance, with only marginal improvements by adding more views. Thus, we enable the acquisition of domain-specific data by capturing activities with off-the-shelf cameras, eliminating the need for elaborate calibration procedures. This research introduces new possibilities for domain adaptation in 3D pose estimation, providing a practical and cost-effective solution to customize models for specific applications. The used dataset, featuring additional views, will be made publicly available.
Abstract（参考訳）: 複数の3Dポーズが同じ2D表現に対応できる基本的な曖昧さを考えると、単一の2D画像や2Dキーポイントから3Dのポーズをデジェクトすることは本質的に困難である。 3Dデータの取得は、曖昧さを解消するためには貴重なものだが、高価であり、複雑なセットアップを必要とし、しばしば制御されたラボ環境に適用性を制限する。微調整のためのマルチビューデータを用いた単眼人物ポーズ推定モデルの性能改善を行う。本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。この損失は、ある視点から推定された3Dのポーズが、類似性変換の下で他の視点から推定された3Dのポーズと整合することを強制する。我々の整合性喪失は、3Dデータを使用せずに微調整の性能を大幅に向上させる。実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。そこで,本研究では,オフザシェルフカメラによるアクティビティを捉え,精巧な校正手順を不要にすることで,ドメイン固有データの取得を可能にする。本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し、特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。追加ビューを備えた使用済みデータセットが一般公開される予定だ。

関連論文リスト

Flexible Geometric Guidance for Probabilistic Human Pose Estimation with Diffusion Models [38.64509144392513]
拡散モデルを用いたポーズ推定のためのフレームワークを提案する。提案手法をHuman 3.6Mデータセット上で評価する。さらに,MPI-INF-3DHPと3DPWデータセットを用いた一般化能力の評価を行い,競争性能を実証した。
論文参考訳（メタデータ） (2026-02-03T05:35:37Z)
MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文参考訳（メタデータ） (2024-08-20T12:55:14Z)
TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation [48.08156777874614]
現在の手法では3次元擬似地下構造(p-GT)と2次元鍵点を利用して、堅牢な性能を実現している。このような手法により、3次元ポーズ精度のパラドックス的低下が観察され、2次元精度が増大する。現行のカメラモデルによる誤差を定量化し、2Dキーポイントとp-GTの装着が正確な3Dポーズを引き起こすことを示す。
論文参考訳（メタデータ） (2024-04-25T17:09:14Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation [4.648549457266638]
2Dキネマティックスケルトンから3D人間のポーズを復元する新しい教師なし学習法であるLInKsを提案する。提案手法は,まず3次元領域に隠された2次元のポーズを持ち上げるという,ユニークな2段階のプロセスに従う。このリフト・テン・フィルのアプローチは、2次元空間でのみポーズを完了したモデルよりもはるかに正確な結果をもたらす。
論文参考訳（メタデータ） (2023-09-13T18:28:04Z)
The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文参考訳（メタデータ） (2023-08-21T01:59:45Z)
CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文参考訳（メタデータ） (2023-01-08T05:07:41Z)
DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文参考訳（メタデータ） (2022-12-06T07:22:20Z)
VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。 1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。 1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文参考訳（メタデータ） (2022-07-20T14:47:28Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。