論文の概要: JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery
- arxiv url: http://arxiv.org/abs/2307.16377v2
- Date: Thu, 17 Aug 2023 14:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:35:20.117115
- Title: JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery
- Title(参考訳): JOTR: Occluded Human Meshリカバリのための変換器を用いた3次元コントラスト学習
- Authors: Jiahao Li, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang
- Abstract要約: 本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
- 参考スコア(独自算出の注目度): 84.67823511418334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we focus on the problem of 3D human mesh recovery from a
single image under obscured conditions. Most state-of-the-art methods aim to
improve 2D alignment technologies, such as spatial averaging and 2D joint
sampling. However, they tend to neglect the crucial aspect of 3D alignment by
improving 3D representations. Furthermore, recent methods struggle to separate
the target human from occlusion or background in crowded scenes as they
optimize the 3D space of target human with 3D joint coordinates as local
supervision. To address these issues, a desirable method would involve a
framework for fusing 2D and 3D features and a strategy for optimizing the 3D
space globally. Therefore, this paper presents 3D JOint contrastive learning
with TRansformers (JOTR) framework for handling occluded 3D human mesh
recovery. Our method includes an encoder-decoder transformer architecture to
fuse 2D and 3D representations for achieving 2D$\&$3D aligned results in a
coarse-to-fine manner and a novel 3D joint contrastive learning approach for
adding explicitly global supervision for the 3D feature space. The contrastive
learning approach includes two contrastive losses: joint-to-joint contrast for
enhancing the similarity of semantically similar voxels (i.e., human joints),
and joint-to-non-joint contrast for ensuring discrimination from others (e.g.,
occlusions and background). Qualitative and quantitative analyses demonstrate
that our method outperforms state-of-the-art competitors on both
occlusion-specific and standard benchmarks, significantly improving the
reconstruction of occluded humans.
- Abstract(参考訳): 本研究では,不明瞭な条件下での単一画像からの3次元メッシュ復元の問題に着目した。
ほとんどの最先端手法は、空間平均化や2次元関節サンプリングのような2次元アライメント技術の改善を目的としている。
しかし、3D表現を改善することで、3Dアライメントの重要な側面を無視する傾向がある。
さらに,最近の手法では,3次元協調座標を局所的監督として対象者の3次元空間を最適化するため,混み合った場面で対象者を咬合や背景から切り離すのに苦労している。
これらの課題に対処するためには、2Dと3Dの機能を融合するためのフレームワークと、世界規模で3D空間を最適化するための戦略が望ましい方法である。
そこで本研究では,非閉塞型3次元メッシュ回復のためのTRansformers (JOTR) フレームワークを用いた3次元ジョイントコントラスト学習を提案する。
提案手法は,2D$\&$3Dの整合性を実現するために2Dおよび3D表現を融合するエンコーダ・デコーダ・トランスフォーマアーキテクチャと,3D特徴空間に対して明示的にグローバルな監視を加えるための新しい3D共同コントラスト学習手法を含む。
対照的な学習アプローチには、意味的に類似したボクセル(人間の関節)の類似性を高めるジョイント・ツー・ジョイントコントラストと、他者との差別を保証するジョイント・トゥ・ジョイントコントラスト(例えば、オクルージョンと背景)の2つの対照的な損失が含まれる。
定性的および定量的分析により,本手法は咬合特異的および標準ベンチマークにおいて,最先端の競争相手よりも優れ,閉塞したヒトの再建を著しく改善することが示された。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
CHASEはスパース入力のみを使用して高密度なインプットレベルのパフォーマンスを実現する新しいフレームワークである。
トレーニングセットからの類似のポーズを活用することにより,変形したガウスを洗練する動的アバター調整(DAA)モジュールを導入する。
スパース入力用に設計されているが、CHASEはZJU-MoCapとH36Mデータセットのフル設定とスパース設定の両方で最先端のメソッドを超越している。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Deep-MDS Framework for Recovering the 3D Shape of 2D Landmarks from a
Single Image [8.368476827165114]
本稿では,人間の顔上の2次元ランドマークの3次元形状を,単一の入力画像で再現する枠組みを提案する。
ディープニューラルネットワークは、NMDSアプローチで使用される2Dランドマーク間のペアの相似性を学習する。
論文 参考訳(メタデータ) (2022-10-27T06:20:10Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。