論文の概要: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- arxiv url: http://arxiv.org/abs/2510.12660v1
- Date: Tue, 14 Oct 2025 15:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.382266
- Title: On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation
- Title(参考訳): 階層型視覚基礎モデルを用いた低コスト人メッシュ回復とポース推定
- Authors: Shuhei Tarashima, Yushan Wang, Norio Tagawa,
- Abstract要約: 我々は,ヒューマンメッシュリカバリ(HMR)とヒューマンポーズ推定(HPE)のためのシンプルで効率的なモデルの開発を目指している。
まず、対応する ViTPose モデルを適用することで、3つの軽量な HMR2.0 変異体を構築する。
さらに,階層型視覚基盤モデル(VFM)の初期段階をエンコーダとして活用することを提案する。
- 参考スコア(独自算出の注目度): 1.6385815610837169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we aim to develop simple and efficient models for human mesh recovery (HMR) and its predecessor task, human pose estimation (HPE). State-of-the-art HMR methods, such as HMR2.0 and its successors, rely on large, non-hierarchical vision transformers as encoders, which are inherited from the corresponding HPE models like ViTPose. To establish baselines across varying computational budgets, we first construct three lightweight HMR2.0 variants by adapting the corresponding ViTPose models. In addition, we propose leveraging the early stages of hierarchical vision foundation models (VFMs), including Swin Transformer, GroupMixFormer, and VMamba, as encoders. This design is motivated by the observation that intermediate stages of hierarchical VFMs produce feature maps with resolutions comparable to or higher than those of non-hierarchical counterparts. We conduct a comprehensive evaluation of 27 hierarchical-VFM-based HMR and HPE models, demonstrating that using only the first two or three stages achieves performance on par with full-stage models. Moreover, we show that the resulting truncated models exhibit better trade-offs between accuracy and computational efficiency compared to existing lightweight alternatives.
- Abstract(参考訳): 本研究では,ヒトメッシュ回復モデル(HMR)とその先行課題であるヒトポーズ推定モデル(HPE)を開発することを目的とする。
HMR2.0とその後継者のような最先端のHMR法は、VTPoseのような対応するHPEモデルから継承されるエンコーダとして、大規模で階層的でない視覚変換器に依存している。
様々な計算予算にまたがるベースラインを確立するために、まず、対応するViTPoseモデルを適用することで、3つの軽量なHMR2.0変異体を構築する。
さらに,Swin Transformer,GroupMixFormer,VMambaなど,階層型視覚基盤モデル(VFM)の初期段階をエンコーダとして活用することを提案する。
この設計は、階層的VFMの中間段階が非階層的VFMと同等以上の解像度を持つ特徴写像を生成するという観察に動機づけられている。
階層型VFMベースHMRおよびHPEモデル27の総合評価を行い、最初の2、3段階のみを用いてフルステージモデルと同等の性能が得られることを示した。
さらに,提案手法は,既存の軽量モデルに比べて精度と計算効率のトレードオフが優れていることを示す。
関連論文リスト
- Dynamic Pattern Alignment Learning for Pretraining Lightweight Human-Centric Vision Models [84.30626369903221]
本研究では,軽量な人中心視覚モデルを効率的に学習するための動的パターンアライメント学習(DPAL)を提案する。
DPALは軽量なHVMをガイドし、大きなHVMから典型的な人間の視覚パターンをすべて学習し、様々な人間中心の視覚タスクに一般化することができる。
15の挑戦的なデータセットで実施された大規模な実験は、DPALの有効性を実証している。
論文 参考訳(メタデータ) (2025-08-10T02:27:06Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - Flow Generator Matching [35.371071097381346]
フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。
CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。
MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-25T05:41:28Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Multiscale Metamorphic VAE for 3D Brain MRI Synthesis [5.060516201839319]
3次元脳MRIの創発的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成することの難しさを示す。
本研究では, この課題に対して, 可変オートエンコーダフレームワークにおける構成可能なマルチスケール形態素変換を用いて対処することを提案する。
VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。
論文 参考訳(メタデータ) (2023-01-09T09:15:30Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。