論文の概要: GADS: A Super Lightweight Model for Head Pose Estimation
- arxiv url: http://arxiv.org/abs/2504.15751v1
- Date: Tue, 22 Apr 2025 09:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:10:25.422729
- Title: GADS: A Super Lightweight Model for Head Pose Estimation
- Title(参考訳): GADS:ヘッドポーズ推定のための超軽量モデル
- Authors: Menan Velayuthan, Asiri Gawesha, Purushoth Velayuthan, Nuwan Kodagoda, Dharshana Kasthurirathna, Pradeepa Samarasinghe,
- Abstract要約: Grouped Attention Deep Sets (GADS)はDeep Setフレームワークに基づいた新しいアーキテクチャである。
ランドマークを領域にグループ化することで、計算の複雑さを減らします。
私たちのモデルは7.5times$小さめで、現在の最も軽量な最先端モデルよりも25times$高速に実行されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In human-computer interaction, head pose estimation profoundly influences application functionality. Although utilizing facial landmarks is valuable for this purpose, existing landmark-based methods prioritize precision over simplicity and model size, limiting their deployment on edge devices and in compute-poor environments. To bridge this gap, we propose \textbf{Grouped Attention Deep Sets (GADS)}, a novel architecture based on the Deep Set framework. By grouping landmarks into regions and employing small Deep Set layers, we reduce computational complexity. Our multihead attention mechanism extracts and combines inter-group information, resulting in a model that is $7.5\times$ smaller and executes $25\times$ faster than the current lightest state-of-the-art model. Notably, our method achieves an impressive reduction, being $4321\times$ smaller than the best-performing model. We introduce vanilla GADS and Hybrid-GADS (landmarks + RGB) and evaluate our models on three benchmark datasets -- AFLW2000, BIWI, and 300W-LP. We envision our architecture as a robust baseline for resource-constrained head pose estimation methods.
- Abstract(参考訳): ヒューマン・コンピュータ・インタラクションにおいて、ヘッドポーズ推定はアプリケーション機能に大きな影響を及ぼす。
この目的には顔のランドマークの利用が重要であるが、既存のランドマークベースの手法では、単純さとモデルサイズよりも精度を優先し、エッジデバイスや計算量が少ない環境でのデプロイメントを制限している。
このギャップを埋めるために,Deep Set フレームワークに基づいた新しいアーキテクチャである \textbf{Grouped Attention Deep Sets (GADS) を提案する。
ランドマークをリージョンにグループ化し、小さなDeep Setレイヤを採用することで、計算の複雑さを減らします。
我々のマルチヘッドアテンションメカニズムはグループ間情報を抽出して結合し、その結果、7.5\times$より小さく、25\times$を現在の最先端技術モデルよりも高速に実行するモデルとなる。
特に,本手法は,最高の性能モデルよりも4,321\times$小さめの大幅な削減を実現している。
バニラGADSとハイブリッドGADS(ランドマーク+RGB)を導入し、AFLW2000, BIWI, 300W-LPの3つのベンチマークデータセットでモデルを評価する。
我々は,資源制約された頭部ポーズ推定手法のロバストなベースラインとして,アーキテクチャを構想する。
関連論文リスト
- HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - On-Road Object Importance Estimation: A New Dataset and A Model with Multi-Fold Top-Down Guidance [70.80612792049315]
本稿では,交通オブジェクト重要度(TOI)という,新しい大規模データセットを提案する。
ボトムアップ機能とマルチフォールドトップダウンガイダンスを統合するモデルを提案する。
我々のモデルは最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-11-26T06:37:10Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - How to train your draGAN: A task oriented solution to imbalanced
classification [15.893327571516016]
本稿では,新しいアーキテクチャであるdraGANを用いた,ユニークでパフォーマンスを重視したデータ生成戦略を提案する。
サンプルは、実際のデータと類似性ではなく、分類モデルの性能を最適化する目的で生成される。
経験的に、draGANの優位性を示すと同時に、いくつかの欠点も強調する。
論文 参考訳(メタデータ) (2022-11-18T07:37:34Z) - Constructing Stronger and Faster Baselines for Skeleton-based Action
Recognition [19.905455701387194]
骨格に基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)のベースラインを提案する。
NTU RGB+D 60 と 120 の2つの大規模データセットでは、提案されたEfficientGCN-B4 ベースラインは、他の State-Of-The-Art (SOTA) メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-06-29T07:09:11Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - $S^3$Net: Semantic-Aware Self-supervised Depth Estimation with Monocular
Videos and Synthetic Data [11.489124536853172]
S3$Netは、学習のための合成画像と実世界の画像を組み合わせた自己教師型フレームワークである。
我々は、この自己教師付きフレームワークをトレーニングするユニークな方法を示し、従来の合成教師付きアプローチよりも15%以上の改善を実現した。
論文 参考訳(メタデータ) (2020-07-28T22:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。