論文の概要: A Simple Baseline for Efficient Hand Mesh Reconstruction
- arxiv url: http://arxiv.org/abs/2403.01813v1
- Date: Mon, 4 Mar 2024 08:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:37:09.230064
- Title: A Simple Baseline for Efficient Hand Mesh Reconstruction
- Title(参考訳): 効率的な手メッシュ再建のための簡易ベースライン
- Authors: Zhishan Zhou, Shihao.zhou, Zhi Lv, Minqiang Zou, Yao Tang, Jiajun
Liang
- Abstract要約: 3次元手ポーズ推定はジェスチャー認識や人間と機械のインタラクションタスクといった分野に広く応用されている。
本稿では,最新技術(SOTA)法を超越した,単純で効果的なベースラインを提案するが,計算効率も示す。
- 参考スコア(独自算出の注目度): 9.704302427105187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D hand pose estimation has found broad application in areas such as gesture
recognition and human-machine interaction tasks. As performance improves, the
complexity of the systems also increases, which can limit the comparative
analysis and practical implementation of these methods. In this paper, we
propose a simple yet effective baseline that not only surpasses
state-of-the-art (SOTA) methods but also demonstrates computational efficiency.
To establish this baseline, we abstract existing work into two components: a
token generator and a mesh regressor, and then examine their core structures. A
core structure, in this context, is one that fulfills intrinsic functions,
brings about significant improvements, and achieves excellent performance
without unnecessary complexities. Our proposed approach is decoupled from any
modifications to the backbone, making it adaptable to any modern models. Our
method outperforms existing solutions, achieving state-of-the-art (SOTA)
results across multiple datasets. On the FreiHAND dataset, our approach
produced a PA-MPJPE of 5.7mm and a PA-MPVPE of 6.0mm. Similarly, on the Dexycb
dataset, we observed a PA-MPJPE of 5.5mm and a PA-MPVPE of 5.0mm. As for
performance speed, our method reached up to 33 frames per second (fps) when
using HRNet and up to 70 fps when employing FastViT-MA36
- Abstract(参考訳): 3次元手ポーズ推定はジェスチャー認識や人間と機械のインタラクションタスクといった分野に広く応用されている。
性能が向上するにつれて、システムの複雑さも増大し、比較分析や実践的な実装が制限される。
本稿では,SOTA(State-of-the-art)法を超越するだけでなく,計算効率も向上する単純なベースラインを提案する。
このベースラインを確立するために、既存の作業をトークンジェネレータとメッシュレグレシタという2つのコンポーネントに抽象化し、そのコア構造を調べます。
この文脈では、コア構造は固有の機能を実現し、大幅な改善をもたらし、不要な複雑さなしに優れたパフォーマンスを達成する。
私たちの提案するアプローチはバックボーンの変更から切り離され、現代的なモデルに適応できるようにしています。
提案手法は既存のソリューションよりも優れており,複数のデータセットでSOTA(State-of-the-art)結果が得られる。
FreiHANDデータセットでは, PA-MPJPEが5.7mm, PA-MPVPEが6.0mmであった。
同様に、Dexycbデータセットでは、PA-MPJPEが5.5mm、PA-MPVPEが5.0mmであった。
性能速度については,HRNetでは最大33フレーム/秒(fps),FastViT-MA36では最大70フレーム/秒に到達した。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame
Interpolation [19.077966606237897]
ビデオフレーム(VFI)モデルはすべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。
冗長計算を省略する不確実性誘導型空間プラニングアーキテクチャを開発した。
提案手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-31T10:33:07Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation [11.513054537848227]
そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
論文 参考訳(メタデータ) (2022-04-29T05:46:20Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。