論文の概要: Multi-RoI Human Mesh Recovery with Camera Consistency and Contrastive Losses
- arxiv url: http://arxiv.org/abs/2402.02074v2
- Date: Tue, 01 Oct 2024 16:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:32:39.835459
- Title: Multi-RoI Human Mesh Recovery with Camera Consistency and Contrastive Losses
- Title(参考訳): カメラの一貫性とコントラスト損失を考慮したマルチロイ・ヒューマンメッシュ・リカバリ
- Authors: Yongwei Nie, Changzhen Liu, Chengjiang Long, Qing Zhang, Guiqing Li, Hongmin Cai,
- Abstract要約: 本稿では2次元再投射損失を計算するためのカメラを推定するために,複数RoIに基づくHuman Mesh Recovery (HMR)法を提案する。
キーとなるアイデアは、複数のRoIを入力として、複数のローカルカメラを推定し、追加の制約を設計し適用する機会を得る、ということです。
複数RoI HMR法の有効性と最近の先行技術に対する優位性を示す実験を行った。
- 参考スコア(独自算出の注目度): 34.95831682199947
- License:
- Abstract: Besides a 3D mesh, Human Mesh Recovery (HMR) methods usually need to estimate a camera for computing 2D reprojection loss. Previous approaches may encounter the following problem: both the mesh and camera are not correct but the combination of them can yield a low reprojection loss. To alleviate this problem, we define multiple RoIs (region of interest) containing the same human and propose a multiple-RoI-based HMR method. Our key idea is that with multiple RoIs as input, we can estimate multiple local cameras and have the opportunity to design and apply additional constraints between cameras to improve the accuracy of the cameras and, in turn, the accuracy of the corresponding 3D mesh. To implement this idea, we propose a RoI-aware feature fusion network by which we estimate a 3D mesh shared by all RoIs as well as local cameras corresponding to the RoIs. We observe that local cameras can be converted to the camera of the full image through which we construct a local camera consistency loss as the additional constraint imposed on local cameras. Another benefit of introducing multiple RoIs is that we can encapsulate our network into a contrastive learning framework and apply a contrastive loss to regularize the training of our network. Experiments demonstrate the effectiveness of our multi-RoI HMR method and superiority to recent prior arts. Our code is available at https://github.com/CptDiaos/Multi-RoI.
- Abstract(参考訳): 3Dメッシュの他に、Human Mesh Recovery(HMR)メソッドは、通常、2Dの再投影損失を計算するためのカメラを見積もる必要がある。
メッシュとカメラはどちらも正しくないが、それらの組み合わせは低い再投射損失をもたらす可能性がある。
この問題を緩和するために、同一の人間を含む複数のRoI(関心領域)を定義し、複数RoIに基づくHMR法を提案する。
キーとなるアイデアは、複数のRoIを入力として、複数のローカルカメラを推定し、カメラ間の追加制約を設計して適用して、カメラの精度を向上し、それに対応する3Dメッシュの精度を向上できるということです。
このアイデアを実現するために,全RoIが共有する3Dメッシュと,RoIに対応するローカルカメラを推定する,RoI対応機能融合ネットワークを提案する。
ローカルカメラをフルイメージのカメラに変換することで、ローカルカメラに課される追加制約として、ローカルカメラの一貫性損失を構築することができる。
複数のRoIを導入するもうひとつのメリットは、ネットワークをコントラスト的な学習フレームワークにカプセル化して、コントラスト的な損失を適用して、ネットワークのトレーニングを規則化できることです。
複数RoI HMR法の有効性と最近の先行技術に対する優位性を示す実験を行った。
私たちのコードはhttps://github.com/CptDiaos/Multi-RoI.comで公開されています。
関連論文リスト
- R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - DIME-Net: Neural Network-Based Dynamic Intrinsic Parameter Rectification
for Cameras with Optical Image Stabilization System [16.390775530663618]
本稿では,ポーズ推定や3次元再構成をリアルタイムで行うニューラルネットワークによる新しい手法を提案する。
提案する動的内在性ポーズ推定ネットワークをDIME-Netと名付け,3つのモバイルデバイス上で実装およびテストを行った。
いずれの場合も、DIME-Netはリジェクションエラーを少なくとも6,4$%削減できる。
論文 参考訳(メタデータ) (2023-03-20T17:45:12Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused
Events Fusion [14.15744053080529]
イベントカメラはバイオインスパイアされたセンサーで、従来のカメラよりも有利だ。
SLAMにおけるイベントベースステレオ3D再構成の課題に対処する。
我々は融合理論を開発し、それをマルチカメラ3D再構成アルゴリズムの設計に適用する。
論文 参考訳(メタデータ) (2022-07-21T14:19:39Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z) - Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文 参考訳(メタデータ) (2020-02-21T03:28:42Z) - Rethinking the Distribution Gap of Person Re-identification with
Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。
我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。
幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-01-23T17:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。