論文の概要: HeadPosr: End-to-end Trainable Head Pose Estimation using Transformer
Encoders
- arxiv url: http://arxiv.org/abs/2202.03548v1
- Date: Mon, 7 Feb 2022 22:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 05:21:24.497179
- Title: HeadPosr: End-to-end Trainable Head Pose Estimation using Transformer
Encoders
- Title(参考訳): HeadPosr: トランスフォーマーエンコーダを用いたエンドツーエンドのトレーニング可能なヘッドポーズ推定
- Authors: Naina Dhingra
- Abstract要約: textitHeadPosrは、単一のRGBイメージを使用してヘッドポーズを予測するために提案されている。
textitHeadPosrは、トランスフォーマーエンコーダを含む新しいアーキテクチャを使用する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, HeadPosr is proposed to predict the head poses using a single
RGB image. \textit{HeadPosr} uses a novel architecture which includes a
transformer encoder. In concrete, it consists of: (1) backbone; (2) connector;
(3) transformer encoder; (4) prediction head. The significance of using a
transformer encoder for HPE is studied. An extensive ablation study is
performed on varying the (1) number of encoders; (2) number of heads; (3)
different position embeddings; (4) different activations; (5) input channel
size, in a transformer used in HeadPosr. Further studies on using: (1)
different backbones, (2) using different learning rates are also shown. The
elaborated experiments and ablations studies are conducted using three
different open-source widely used datasets for HPE, i.e., 300W-LP, AFLW2000,
and BIWI datasets. Experiments illustrate that \textit{HeadPosr} outperforms
all the state-of-art methods including both the landmark-free and the others
based on using landmark or depth estimation on the AFLW2000 dataset and BIWI
datasets when trained with 300W-LP. It also outperforms when averaging the
results from the compared datasets, hence setting a benchmark for the problem
of HPE, also demonstrating the effectiveness of using transformers over the
state-of-the-art.
- Abstract(参考訳): 本稿では,単一のrgb画像を用いて頭部ポーズの予測を行うheadposrを提案する。
\textit{HeadPosr} は、トランスフォーマーエンコーダを含む新しいアーキテクチャを使用する。
具体的には、(1)バックボーン、(2)コネクタ、(3)トランスフォーマーエンコーダ、(4)予測ヘッドで構成される。
変圧器エンコーダを用いたHPEの意義について検討した。
1)エンコーダ数,(2)ヘッド数,(3)異なる位置埋め込み,(4)異なるアクティベーション,(5)HeadPosrで使用されるトランスフォーマーにおける入力チャネルサイズについて広範囲にわたるアブレーション研究を行った。
さらに,(1)異なるバックボーン,(2)異なる学習率を用いた使用法についても検討した。
HPE、300W-LP、AFLW2000、BIWIの3つの異なるオープンソースで広く使われているデータセットを用いて、精巧な実験と改善研究を行う。
実験では、300W-LPでトレーニングされたAFLW2000データセットとBIWIデータセットのランドマークまたは深さ推定を用いて、ランドマークフリーと他の2つを含むすべての最先端メソッドよりもパフォーマンスが良くなっている。
また、比較したデータセットの結果を平均化することで、HPEの問題に対するベンチマークを設定し、最先端技術に対するトランスフォーマーの使用の有効性を示す。
関連論文リスト
- Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation [4.603321798937854]
Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2022-05-25T09:26:42Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Yformer: U-Net Inspired Transformer Architecture for Far Horizon Time
Series Forecasting [0.0]
Y-Netにインスパイアされた新しいY字型エンコーダデコーダアーキテクチャは、ダウンスケールのエンコーダ層から対応するアップサンプリングデコーダ層への直接接続を利用する。
4つのベンチマークデータセットに対する関連するベースラインで実験が行われ、平均的な改善は19.82、18.41、13.62、11.85、MAEである。
論文 参考訳(メタデータ) (2021-10-13T13:35:54Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - DA-Transformer: Distance-aware Transformer [87.20061062572391]
DA-Transformerは、実際の距離を利用することができる距離対応トランスである。
本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:09:01Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。