論文の概要: HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences
- arxiv url: http://arxiv.org/abs/2103.15573v1
- Date: Mon, 29 Mar 2021 12:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:51:37.261181
- Title: HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences
- Title(参考訳): 人間GPS:複雑な人間対応のためのジオデシック・プレサービング機能
- Authors: Feitong Tan, Danhang Tang, Mingsong Dou, Kaiwen Guo, Rohit Pandey, Cem
Keskin, Ruofei Du, Deqing Sun, Sofien Bouaziz, Sean Fanello, Ping Tan, Yinda
Zhang
- Abstract要約: 先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
- 参考スコア(独自算出の注目度): 60.89437526374286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of building dense correspondences
between human images under arbitrary camera viewpoints and body poses. Prior
art either assumes small motion between frames or relies on local descriptors,
which cannot handle large motion or visually ambiguous body parts, e.g., left
vs. right hand. In contrast, we propose a deep learning framework that maps
each pixel to a feature space, where the feature distances reflect the geodesic
distances among pixels as if they were projected onto the surface of a 3D human
scan. To this end, we introduce novel loss functions to push features apart
according to their geodesic distances on the surface. Without any semantic
annotation, the proposed embeddings automatically learn to differentiate
visually similar parts and align different subjects into an unified feature
space. Extensive experiments show that the learned embeddings can produce
accurate correspondences between images with remarkable generalization
capabilities on both intra and inter subjects.
- Abstract(参考訳): 本稿では、任意のカメラ視点と身体ポーズの下で人間の画像間の密接な対応を構築する問題に対処する。
先行芸術は、フレーム間の小さな動きを仮定するか、または局所的なディスクリプタに依存しており、大きな動きや視覚的に曖昧な身体部分(例えば左手と右手)を扱えない。
対照的に,各画素を特徴空間にマッピングする深層学習フレームワークを提案し,特徴距離は3次元人間のスキャンの表面に投影されたかのように画素間の測地距離を反映している。
この目的のために,表面上の測地線距離に応じて特徴を分割する新しい損失関数を導入する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
広汎な実験により、学習した埋め込みは、被写体内および被写体間の顕著な一般化能力を持つ画像間の正確な対応を生成できることが示されている。
関連論文リスト
- 3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image [8.900009931200955]
本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。
この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。
その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T07:23:02Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - BodyMap: Learning Full-Body Dense Correspondence Map [19.13654133912062]
BodyMapは,人体内画像と3Dテンプレートモデルの表面との間の高精細かつ連続的な対応関係を得るための新しいフレームワークである。
人間間の複雑な対応は、身体全体を理解するための基本的な問題を解決するために利用できる強力な意味情報を運ぶ。
論文 参考訳(メタデータ) (2022-05-18T17:58:11Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。