論文の概要: Fast-HaMeR: Boosting Hand Mesh Reconstruction using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.16444v1
- Date: Tue, 17 Mar 2026 12:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.269879
- Title: Fast-HaMeR: Boosting Hand Mesh Reconstruction using Knowledge Distillation
- Title(参考訳): Fast-HaMeR:知識蒸留による手メッシュ再構築
- Authors: Hunain Ahmed Jillani, Ahmed Tawfik Aboukhadra, Ahmed Elhayek, Jameel Malik, Nadia Robertini, Didier Stricker,
- Abstract要約: 3Dハンドリコンストラクションは、VR/AR、人間とコンピュータのインタラクション、ロボット工学、医療におけるリアルタイムアプリケーションに不可欠である。
ほとんどの最先端の手法は重いモデルに依存しており、ヘッドセットやスマートフォン、組み込みシステムといったリソース制限されたデバイスの使用を制限する。
本稿では, 軽量ニューラルネットワークと知識蒸留を組み合わせることで, 複雑な3次元手指再構築モデルを高速化する方法について検討する。
- 参考スコア(独自算出の注目度): 14.044063434854166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast and accurate 3D hand reconstruction is essential for real-time applications in VR/AR, human-computer interaction, robotics, and healthcare. Most state-of-the-art methods rely on heavy models, limiting their use on resource-constrained devices like headsets, smartphones, and embedded systems. In this paper, we investigate how the use of lightweight neural networks, combined with Knowledge Distillation, can accelerate complex 3D hand reconstruction models by making them faster and lighter, while maintaining comparable reconstruction accuracy. While our approach is suited for various hand reconstruction frameworks, we focus primarily on boosting the HaMeR model, currently the leading method in terms of reconstruction accuracy. We replace its original ViT-H backbone with lighter alternatives, including MobileNet, MobileViT, ConvNeXt, and ResNet, and evaluate three knowledge distillation strategies: output-level, feature-level, and a hybrid of both. Our experiments show that using lightweight backbones that are only 35% the size of the original achieves 1.5x faster inference speed while preserving similar performance quality with only a minimal accuracy difference of 0.4mm. More specifically, we show how output-level distillation notably improves student performance, while feature-level distillation proves more effective for higher-capacity students. Overall, the findings pave the way for efficient real-world applications on low-power devices. The code and models are publicly available under https://github.com/hunainahmedj/Fast-HaMeR.
- Abstract(参考訳): VR/AR、人間とコンピュータのインタラクション、ロボット工学、医療におけるリアルタイムアプリケーションには、高速で正確な3Dハンドリコンストラクションが不可欠である。
ほとんどの最先端の手法は重いモデルに依存しており、ヘッドセットやスマートフォン、組み込みシステムといったリソース制限されたデバイスの使用を制限する。
本稿では, 軽量ニューラルネットワークと知識蒸留を組み合わせることで, より高速かつ軽量な3次元手指再建モデルを実現するとともに, 同等の再現精度を維持しながら, 複雑な手指再建モデルを高速化する方法について検討する。
本手法は, 各種手指再建フレームワークに適合するが, 主にHaMeRモデルの強化に重点を置いている。
元のViT-HバックボーンをMobileNet、MobileViT、ConvNeXt、ResNetといった軽量な代替品に置き換え、アウトプットレベル、フィーチャーレベル、ハイブリッドの3つの知識蒸留戦略を評価します。
実験の結果,従来の35%の軽量バックボーンを使用すれば,1.5倍高速な推論が可能であり,同様の性能を0.4mmの最小精度で維持できることがわかった。
より具体的には, 出力レベルの蒸留が生徒のパフォーマンスを著しく向上させるのに対して, 特徴レベルの蒸留は高容量の学生にとってより効果的であることを示す。
全体として、研究結果は、低消費電力デバイス上での効率的な現実世界の応用の道を開いた。
コードとモデルはhttps://github.com/hunainahmedj/Fast-HaMeR.comで公開されている。
関連論文リスト
- Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching [16.927491376135134]
我々はFast-FoundationStereo(ファスト・ファウンデーション・ステーオ)という,リアルタイムフレームレートでゼロショットの強力な一般化を実現するアーキテクチャのファスト・ファウンデーション・ステーオ(ファスト・ファウンデーション・ステーオ)を提示する。
我々は,知識蒸留,ブロックワイドニューラルアーキテクチャ探索,構造化プルーニングという3つのコンポーネントによる分別/対数加速戦略を採用している。
結果のモデルはFoundationStereoの10倍高速で動作でき、ゼロショットの精度は密に一致している。
論文 参考訳(メタデータ) (2025-12-11T21:36:29Z) - PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - SD3.5-Flash: Distribution-Guided Distillation of Generative Flows [87.45964232927945]
SD3.5-Flashは、高画質の画像生成を消費者デバイスにもたらす、効率的な数ステップ蒸留フレームワークである。
グラデーションノイズを低減するための"タイムステップ共有"と、迅速なアライメントを改善するための"スプリットタイムステップ微調整"の2つの重要なイノベーションを紹介します。
これにより、携帯電話からデスクトップコンピュータまで、あらゆるデバイスへのアクセスが民主化される。
論文 参考訳(メタデータ) (2025-09-25T16:07:38Z) - GhostNetV3-Small: A Tailored Architecture and Comparative Study of Distillation Strategies for Tiny Images [0.0]
本稿では,資源制約環境における効率的な推論を可能にするため,モデルを圧縮・適応するための戦略について検討する。
我々は,モバイルアプリケーションのための最先端アーキテクチャであるGhostNetV3に着目し,低解像度インプットの性能向上を目的とした改良版であるGhostNetV3-Smallを提案する。
論文 参考訳(メタデータ) (2025-09-15T19:19:09Z) - FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models [59.8871829077739]
FastFitは、キャッシュ可能な新しい拡散アーキテクチャに基づいた、高速なマルチ参照仮想試行フレームワークである。
本モデルでは,パラメータのオーバーヘッドを無視して参照特徴符号化をデノナイズ処理から完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップで損失なく再利用される。
論文 参考訳(メタデータ) (2025-08-28T09:25:52Z) - Topology-Guided Knowledge Distillation for Efficient Point Cloud Processing [3.3903891679981593]
本研究は,高能力教師から軽量学生モデルへ知識を伝達する新しい蒸留フレームワークを導入する。
提案手法は,学生モデルの学習過程を選択的に導きながら,点雲の基底となる幾何学的構造を捉える。
本手法は,LiDARデータのみに基づいて訓練された知識蒸留技術における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-12T22:15:54Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。