論文の概要: FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
- arxiv url: http://arxiv.org/abs/2510.10868v1
- Date: Mon, 13 Oct 2025 00:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.135417
- Title: FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
- Title(参考訳): FastHMR: トークンとレイヤマージによるヒューマンメッシュのリカバリの高速化と拡散復号化
- Authors: Soroush Mehraban, Andrea Iaboni, Babak Taati,
- Abstract要約: 我々は2つのHMR固有のマージ戦略を紹介する: エラー拘束層マージ(ECLM)とマスク誘導トケンマージ(Mask-ToMe)である。
複数のベンチマーク実験により,本手法は最大2.3倍の高速化を実現し,ベースラインの性能はわずかに向上した。
- 参考スコア(独自算出の注目度): 2.309307613420651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.
- Abstract(参考訳): 近年の3Dヒューマンメッシュ・リカバリ(HMR)のトランスフォーマーベースモデルでは,高い性能を達成しているが,深層トランスフォーマーアーキテクチャや冗長トークンによる計算コストや複雑度に悩まされていることが多い。
本稿では,Error-Constrained Layer Merging (ECLM) と Mask-Guided Token Merging (Mask-ToMe) の2つのHMR固有のマージ戦略を紹介する。
ECLMはMPJPE(Mean Per Joint Position Error)に最小限の影響しか与えないトランスフォーマー層を選択的にマージする一方、Mask-ToMeは最終的な予測にはほとんど寄与しないバックグラウンドトークンのマージに重点を置いている。
統合による潜在的な性能低下にさらに対処するために,時間的文脈を組み込んだ拡散型デコーダを提案し,大規模なモーションキャプチャーデータセットから学習したポーズ前処理を利用する。
複数のベンチマーク実験により,本手法は最大2.3倍の高速化を実現し,ベースラインの性能はわずかに向上した。
関連論文リスト
- Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction [53.26903617819014]
Flow-Matching-Guided Unfolding Network (FMU)は、最初にフローマッチングをHSI再構成に統合する。
学習力学をさらに強化するために,平均速度損失を導入する。
シミュレーションと実データの両方の実験により、FMUは復元品質において既存のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-02T11:32:00Z) - ToMA: Token Merge with Attention for Diffusion Models [8.079656935981193]
拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
本稿では,GPU整列効率のトークン削減を否定する市販のToMA(Token Merge with Attention)を提案する。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $Delta 0.07$)。
論文 参考訳(メタデータ) (2025-09-13T17:35:00Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference [8.792650582656913]
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。
M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。
自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-04T06:13:52Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。