論文の概要: SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens
- arxiv url: http://arxiv.org/abs/2411.19824v2
- Date: Thu, 05 Dec 2024 12:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:19:31.769863
- Title: SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens
- Title(参考訳): SAT-HMR:スケール適応トークンによるリアルタイムマルチパーソン3次元メッシュ推定
- Authors: Chi Su, Xiaoxuan Ma, Jiajun Su, Yizhou Wang,
- Abstract要約: 一つのRGB画像からリアルタイムなマルチパーソン3次元メッシュ推定を行うための一段階フレームワークを提案する。
画像中の個々の相対スケールに基づいて動的に調整されるスケール適応トークンを導入する。
実験の結果,提案手法は計算コストを大幅に削減しつつ,高分解能処理の精度を保っていることがわかった。
- 参考スコア(独自算出の注目度): 20.716935111971384
- License:
- Abstract: We propose a one-stage framework for real-time multi-person 3D human mesh estimation from a single RGB image. While current one-stage methods, which follow a DETR-style pipeline, achieve state-of-the-art (SOTA) performance with high-resolution inputs, we observe that this particularly benefits the estimation of individuals in smaller scales of the image (e.g., those far from the camera), but at the cost of significantly increased computation overhead. To address this, we introduce scale-adaptive tokens that are dynamically adjusted based on the relative scale of each individual in the image within the DETR framework. Specifically, individuals in smaller scales are processed at higher resolutions, larger ones at lower resolutions, and background regions are further distilled. These scale-adaptive tokens more efficiently encode the image features, facilitating subsequent decoding to regress the human mesh, while allowing the model to allocate computational resources more effectively and focus on more challenging cases. Experiments show that our method preserves the accuracy benefits of high-resolution processing while substantially reducing computational cost, achieving real-time inference with performance comparable to SOTA methods.
- Abstract(参考訳): 一つのRGB画像からリアルタイムなマルチパーソン3次元メッシュ推定を行うための一段階フレームワークを提案する。
現在の1段法はDETR方式のパイプラインを踏襲し、高解像度の入力で最先端のSOTA(State-of-the-art)性能を達成するが、これは特に画像の小さなスケール(例えば、カメラから離れたもの)での個人推定に有効であるが、計算オーバーヘッドを大幅に増大させるコストがかかることを観察する。
そこで本研究では,DETRフレームワーク内の画像中の個々の相対スケールに基づいて動的に調整されるスケール適応トークンを提案する。
具体的には、より小さなスケールの個体は高分解能で処理され、より大きな個体は低分解能で処理され、背景領域はさらに蒸留される。
これらのスケール適応トークンは、イメージ機能をより効率的にエンコードし、その後のデコードを容易にし、人間のメッシュを復元すると同時に、モデルが計算リソースをより効果的に割り当て、より困難なケースに集中できるようにする。
実験により,SOTA法に匹敵する性能でリアルタイムな推論を実現し,計算コストを大幅に削減しつつ,高分解能処理の精度を保ちながら精度を向上できることを示した。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Implicit Shape and Appearance Priors for Few-Shot Full Head
Reconstruction [17.254539604491303]
本稿では,数発のフル3次元頭部再構成の問題点に対処する。
我々は、座標に基づく表現に先立って確率的形状と外観を組み込むことにより、これを達成した。
我々はH3DSデータセットを拡張し、60個の高解像度3Dフルヘッドスキャンと対応する画像とマスクを含む。
論文 参考訳(メタデータ) (2023-10-12T07:35:30Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Multi-scale Neural ODEs for 3D Medical Image Registration [7.715565365558909]
医用画像解析において画像登録は重要な役割を担っている。
ラーニング・トゥ・マップのような深層学習手法はより高速であるが、大きな動きを扱うための精度を改善するために反復的あるいは粗大なアプローチが必要である。
本研究では,マルチスケールのニューラルODEモデルを用いて登録を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-16T00:26:53Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。