論文の概要: LwPosr: Lightweight Efficient Fine-Grained Head Pose Estimation
- arxiv url: http://arxiv.org/abs/2202.03544v1
- Date: Mon, 7 Feb 2022 22:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 05:36:49.207177
- Title: LwPosr: Lightweight Efficient Fine-Grained Head Pose Estimation
- Title(参考訳): LwPosr:軽量高効率微粒ヘッドポース推定
- Authors: Naina Dhingra
- Abstract要約: 本稿では,頭部ポーズ推定(HPE)タスクのための軽量ネットワークを提案する。
The proposed network textitLwPosr using mix of depthwise separable convolutional (DSC) and transformer encoder layer。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a lightweight network for head pose estimation (HPE)
task. While previous approaches rely on convolutional neural networks, the
proposed network \textit{LwPosr} uses mixture of depthwise separable
convolutional (DSC) and transformer encoder layers which are structured in two
streams and three stages to provide fine-grained regression for predicting head
poses. The quantitative and qualitative demonstration is provided to show that
the proposed network is able to learn head poses efficiently while using less
parameter space. Extensive ablations are conducted using three open-source
datasets namely 300W-LP, AFLW2000, and BIWI datasets. To our knowledge, (1)
\textit{LwPosr} is the lightest network proposed for estimating head poses
compared to both keypoints-based and keypoints-free approaches; (2) it sets a
benchmark for both overperforming the previous lightweight network on mean
absolute error and on reducing number of parameters; (3) it is first of its
kind to use mixture of DSCs and transformer encoders for HPE. This approach is
suitable for mobile devices which require lightweight networks.
- Abstract(参考訳): 本稿では,頭部ポーズ推定(HPE)タスクのための軽量ネットワークを提案する。
従来のアプローチは畳み込みニューラルネットワークに依存しているが、提案するネットワーク \textit{lwposr} では、2つのストリームと3つのステージからなる奥行き分離畳み込み層(dsc)とトランスフォーマエンコーダ層が混在し、頭部ポーズを予測するための細粒度回帰を提供する。
提案するネットワークは,パラメータ空間を小さくして効率よく頭部ポーズを学習できることを示すために,定量的かつ定性的な実演を行う。
300W-LP, AFLW2000, BIWIの3つのオープンソースデータセットを用いて, 大規模な改善を行う。
我々の知る限り、(1) \textit{LwPosr} は、キーポイントベースおよびキーポイントフリーアプローチと比較して、頭部ポーズを推定するための最も軽量なネットワークであり、(2) 平均絶対誤差とパラメータ数の削減の両方で以前の軽量ネットワークをオーバーパフォーマンスするためのベンチマークを設定し、(3) DSCとトランスフォーマーの混合をHPEに使用するのはこれが初めてである。
このアプローチは軽量ネットワークを必要とするモバイルデバイスに適している。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Monocular Depth Estimation Primed by Salient Point Detection and
Normalized Hessian Loss [43.950140695759764]
本稿では,単眼深度推定のための高精度で軽量なフレームワークを提案する。
深度方向のスケーリングとせん断に不変な正規化ヘッセン損失項を導入し,精度を著しく向上させることを示した。
提案手法は,NYU-Depth-v2 と KITTI の3.1-38.4 倍小さいモデルを用いて,ベースライン手法よりもパラメータ数が多い場合の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-25T07:51:09Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer
Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。
従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。
本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-12-07T03:44:35Z) - LiteDepthwiseNet: An Extreme Lightweight Network for Hyperspectral Image
Classification [9.571458051525768]
本稿では,HSI分類のための新しいネットワークアーキテクチャLiteDepthwiseNetを提案する。
LiteDepthwiseNetは、標準の畳み込みを深さ方向の畳み込みと点方向の畳み込みに分解し、最小限のパラメータで高い分類性能を達成する。
3つのベンチマークハイパースペクトルデータセットによる実験結果から、LiteDepthwiseNetは、非常に少ないパラメータと少ない計算コストで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-10-15T13:12:17Z) - SSP-Net: Scalable Sequential Pyramid Networks for Real-Time 3D Human
Pose Regression [27.85790535227085]
高速でスケーラブルな畳み込みニューラルネットワークを,静止RGB画像からのリアルタイムな3次元ポーズ回帰のために提案する。
我々のネットワークは1つのトレーニング手順を必要とし、最高の予測を毎秒120フレームで作成することができる。
論文 参考訳(メタデータ) (2020-09-04T03:43:24Z) - Resolution Adaptive Networks for Efficient Inference [53.04907454606711]
本稿では,低分解能表現が「容易」な入力を分類するのに十分である,という直感に触発された新しいレゾリューション適応ネットワーク(RANet)を提案する。
RANetでは、入力画像はまず、低解像度表現を効率的に抽出する軽量サブネットワークにルーティングされる。
ネットワーク内の高解像度パスは、"ハード"サンプルを認識する能力を維持している。
論文 参考訳(メタデータ) (2020-03-16T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。