Fugu-MT 論文翻訳(概要): Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera Consistency in A Single Image

論文の概要: Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera Consistency in A Single Image

arxiv url: http://arxiv.org/abs/2402.02074v1
Date: Sat, 3 Feb 2024 07:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 22:29:13.640845
Title: Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera Consistency in A Single Image
Title（参考訳）: コントラスト学習とカメラの整合性を考慮したマルチクロップ・ヒューマンメッシュ・リカバリ
Authors: Yongwei Nie, Changzhen Liu, Chengjiang Long, Qing Zhang, Guiqing Li, Hongmin Cai
Abstract要約: シングルイメージヒューマンメッシュリカバリ(HMR)の課題に取り組む本稿では,シングルクロップHMRを新しいマルチクロップHMRパラダイムにシフトする。
参考スコア（独自算出の注目度）: 37.04238559131438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the problem of single-image Human Mesh Recovery (HMR). Previous approaches are mostly based on a single crop. In this paper, we shift the single-crop HMR to a novel multiple-crop HMR paradigm. Cropping a human from image multiple times by shifting and scaling the original bounding box is feasible in practice, easy to implement, and incurs neglectable cost, but immediately enriches available visual details. With multiple crops as input, we manage to leverage the relation among these crops to extract discriminative features and reduce camera ambiguity. Specifically, (1) we incorporate a contrastive learning scheme to enhance the similarity between features extracted from crops of the same human. (2) We also propose a crop-aware fusion scheme to fuse the features of multiple crops for regressing the target mesh. (3) We compute local cameras for all the input crops and build a camera-consistency loss between the local cameras, which reward us with less ambiguous cameras. Based on the above innovations, our proposed method outperforms previous approaches as demonstrated by the extensive experiments.
Abstract（参考訳）: 単一像のHuman Mesh Recovery (HMR) の問題に対処する。従来のアプローチは主に1つの作物に基づいている。本稿では,シングルクロップHMRを新しいマルチクロップHMRパラダイムにシフトする。オリジナルのバウンディングボックスのシフトとスケーリングによって、複数の画像から人間をトリミングすることは、実際に実現可能であり、実装が容易であり、無視できるコストが伴うが、すぐに利用可能な視覚詳細を豊かにする。複数の作物を入力として,これらの作物間の関係を利用して識別的特徴を抽出し,カメラの曖昧さを低減した。具体的には,(1)同一人の作物から抽出した特徴の類似性を高めるために,コントラスト学習方式を取り入れている。 2) 対象メッシュを回帰させるために, 複数作物の特徴を融合させる, 作物を意識した融合方式を提案する。 3)全ての入力作物に対して局所カメラを計算し,局所カメラ間のカメラコンシスタンス損失を発生させ,より曖昧度の低いカメラで報いる。以上のイノベーションに基づき,提案手法は,広範な実験で示された従来の手法を上回っている。

関連論文リスト

CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback [43.174121093566264]
我々は、Reward Feedback Learningを構築し、カメラの制御性をさらに向上することを目指している。現在の報酬モデルには、ビデオカメラのアライメントを評価する能力がない。本稿では,映像遅延を3次元表現にデコードして報酬量子化を行う,効率的なカメラ対応3Dデコーダを提案する。
論文参考訳（メタデータ） (2026-01-22T18:59:56Z)
On-the-fly Large-scale 3D Reconstruction from Multi-Camera Rigs [27.867668843780553]
マルチカメラリグのための初となるオンザフライ3D再構成フレームワークを提示する。本手法は,生のマルチカメラ映像ストリームのみを用いて,わずか2分で数百メートルの3Dシーンを再構成する。
論文参考訳（メタデータ） (2025-12-09T11:26:20Z)
Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation [69.68568832269285]
ヘッドマウントデバイス(HMD)の前に設置したカメラを用いて,エゴセントリックな3次元ポーズ推定を積極的に研究している。自己閉塞性や視野範囲の制限により、フルボディトラッキングが同じであるかどうかは不明だ。マルチビュー情報と熱マップの不確実性を用いて2次元関節熱マップ推定を改良するトランスフォーマーに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-14T17:59:54Z)
R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文参考訳（メタデータ） (2023-08-28T17:13:49Z)
DIME-Net: Neural Network-Based Dynamic Intrinsic Parameter Rectification for Cameras with Optical Image Stabilization System [16.390775530663618]
本稿では,ポーズ推定や3次元再構成をリアルタイムで行うニューラルネットワークによる新しい手法を提案する。提案する動的内在性ポーズ推定ネットワークをDIME-Netと名付け,3つのモバイルデバイス上で実装およびテストを行った。いずれの場合も、DIME-Netはリジェクションエラーを少なくとも6,4$%削減できる。
論文参考訳（メタデータ） (2023-03-20T17:45:12Z)
Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文参考訳（メタデータ） (2022-12-04T14:41:20Z)
Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused Events Fusion [14.15744053080529]
イベントカメラはバイオインスパイアされたセンサーで、従来のカメラよりも有利だ。 SLAMにおけるイベントベースステレオ3D再構成の課題に対処する。我々は融合理論を開発し、それをマルチカメラ3D再構成アルゴリズムの設計に適用する。
論文参考訳（メタデータ） (2022-07-21T14:19:39Z)
Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文参考訳（メタデータ） (2021-09-06T14:17:51Z)
FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。 Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文参考訳（メタデータ） (2021-05-05T09:08:12Z)
Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。 Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文参考訳（メタデータ） (2020-07-30T09:21:04Z)
Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文参考訳（メタデータ） (2020-02-21T03:28:42Z)
Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-01-23T17:22:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。