論文の概要: Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera
Consistency in A Single Image
- arxiv url: http://arxiv.org/abs/2402.02074v1
- Date: Sat, 3 Feb 2024 07:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:29:13.640845
- Title: Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera
Consistency in A Single Image
- Title(参考訳): コントラスト学習とカメラの整合性を考慮したマルチクロップ・ヒューマンメッシュ・リカバリ
- Authors: Yongwei Nie, Changzhen Liu, Chengjiang Long, Qing Zhang, Guiqing Li,
Hongmin Cai
- Abstract要約: シングルイメージヒューマンメッシュリカバリ(HMR)の課題に取り組む
本稿では,シングルクロップHMRを新しいマルチクロップHMRパラダイムにシフトする。
- 参考スコア(独自算出の注目度): 37.04238559131438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of single-image Human Mesh Recovery (HMR). Previous
approaches are mostly based on a single crop. In this paper, we shift the
single-crop HMR to a novel multiple-crop HMR paradigm. Cropping a human from
image multiple times by shifting and scaling the original bounding box is
feasible in practice, easy to implement, and incurs neglectable cost, but
immediately enriches available visual details. With multiple crops as input, we
manage to leverage the relation among these crops to extract discriminative
features and reduce camera ambiguity. Specifically, (1) we incorporate a
contrastive learning scheme to enhance the similarity between features
extracted from crops of the same human. (2) We also propose a crop-aware fusion
scheme to fuse the features of multiple crops for regressing the target mesh.
(3) We compute local cameras for all the input crops and build a
camera-consistency loss between the local cameras, which reward us with less
ambiguous cameras. Based on the above innovations, our proposed method
outperforms previous approaches as demonstrated by the extensive experiments.
- Abstract(参考訳): 単一像のHuman Mesh Recovery (HMR) の問題に対処する。
従来のアプローチは主に1つの作物に基づいている。
本稿では,シングルクロップHMRを新しいマルチクロップHMRパラダイムにシフトする。
オリジナルのバウンディングボックスのシフトとスケーリングによって、複数の画像から人間をトリミングすることは、実際に実現可能であり、実装が容易であり、無視できるコストが伴うが、すぐに利用可能な視覚詳細を豊かにする。
複数の作物を入力として,これらの作物間の関係を利用して識別的特徴を抽出し,カメラの曖昧さを低減した。
具体的には,(1)同一人の作物から抽出した特徴の類似性を高めるために,コントラスト学習方式を取り入れている。
2) 対象メッシュを回帰させるために, 複数作物の特徴を融合させる, 作物を意識した融合方式を提案する。
3)全ての入力作物に対して局所カメラを計算し,局所カメラ間のカメラコンシスタンス損失を発生させ,より曖昧度の低いカメラで報いる。
以上のイノベーションに基づき,提案手法は,広範な実験で示された従来の手法を上回っている。
関連論文リスト
- R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - DIME-Net: Neural Network-Based Dynamic Intrinsic Parameter Rectification
for Cameras with Optical Image Stabilization System [16.390775530663618]
本稿では,ポーズ推定や3次元再構成をリアルタイムで行うニューラルネットワークによる新しい手法を提案する。
提案する動的内在性ポーズ推定ネットワークをDIME-Netと名付け,3つのモバイルデバイス上で実装およびテストを行った。
いずれの場合も、DIME-Netはリジェクションエラーを少なくとも6,4$%削減できる。
論文 参考訳(メタデータ) (2023-03-20T17:45:12Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused
Events Fusion [14.15744053080529]
イベントカメラはバイオインスパイアされたセンサーで、従来のカメラよりも有利だ。
SLAMにおけるイベントベースステレオ3D再構成の課題に対処する。
我々は融合理論を開発し、それをマルチカメラ3D再構成アルゴリズムの設計に適用する。
論文 参考訳(メタデータ) (2022-07-21T14:19:39Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z) - Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文 参考訳(メタデータ) (2020-02-21T03:28:42Z) - Rethinking the Distribution Gap of Person Re-identification with
Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。
我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。
幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-01-23T17:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。